添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

spark-core源码学习记录 2 应用提交submit 及driver注册流程,以javawordcount为例

时间: 2023-05-02 11:02:29 浏览: 129
当你提交Spark Core源码学习笔记的时候,并注册Driver的流程,以Java的WordCount为例。 首先,编写提交Job的代码: ```java import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class WordCount { public static void main([string](https://geek.csdn.net/edu/8802d631b97a4a6af1f4d0bbf8527465?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083)[] args) { SparkConf conf = new SparkConf().setAppName("WordCount"); JavaSparkContext sc = new JavaSparkContext(conf); JavaRDD<[string](https://geek.csdn.net/edu/8802d631b97a4a6af1f4d0bbf8527465?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083)> lines = sc.textFile(args[0]); JavaRDD<[string](https://geek.csdn.net/edu/8802d631b97a4a6af1f4d0bbf8527465?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083)> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator()); JavaPairRDD<[string](https://geek.csdn.net/edu/8802d631b97a4a6af1f4d0bbf8527465?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083), Integer> pairs = words.mapToPair(word -> new Tuple2<>(word, 1)); JavaPairRDD<[string](https://geek.csdn.net/edu/8802d631b97a4a6af1f4d0bbf8527465?dp_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6NDQ0MDg2MiwiZXhwIjoxNzA3MzcxOTM4LCJpYXQiOjE3MDY3NjcxMzgsInVzZXJuYW1lIjoid2VpeGluXzY4NjQ1NjQ1In0.RrTYEnMNYPC7AQdoij4SBb0kKEgHoyvF-bZOG2eGQvc&spm=1055.2569.3001.10083), Integer> counts = pairs.reduceByKey((a, b) -> a + b); counts.saveAsTextFile(args[1]); ```

相关推荐

最新推荐

recommend-type

详解Java编写并运行spark应用程序的方法

在本篇文章中,我们将深入探讨如何使用Java编写和运行Apache Spark应用程序,以解决实际工作中遇到的问题,例如分析网站访问日志。Apache Spark是一个强大的分布式计算框架,它提供了高效的内存计算和容错机制,使得...
recommend-type

Spark-Sql源码解析

Spark-Sql 源码解析是 Spark-Sql 框架的核心组件之一,负责将 SQL 语句转换为可执行的计划,以便在 Spark 集群中执行。Spark-Sql 源码解析的主要流程包括语法分析、逻辑计划生成、物理计划生成和执行计划生成四个...
recommend-type

Spark-shell批量命令执行脚本的方法

在Spark开发过程中,有时我们需要执行一系列的Spark SQL或者DataFrame操作,这时手动输入命令可能会非常繁琐。为了解决这个问题,我们可以利用脚本批量执行Spark-shell中的命令。本文将详细介绍如何通过编写bash脚本...
recommend-type

window10搭建pyspark(基于spark-3.0.0-bin-hadoop2).docx

在Window10操作系统中搭建Apache Spark的Python接口pyspark,通常有两种方法,这里主要针对基于spark-3.0.0-bin-hadoop2版本的环境进行讲解。首先,最简单的方法是通过Python的包管理器pip来直接安装pyspark。在...
recommend-type

实验七:Spark初级编程实践

Spark 提供了 Scala、Java、Python 和 R 的 API,便于开发者构建分布式应用程序。实验中,使用 Scala 编写了两个独立应用: - `SimpleApp` 读取 HDFS 文件 `/user/hadoop/test.txt` 并统计行数,这通过 `sbt ...
recommend-type

新闻发布系统:第二阶段——实现一级标题发布

在这个"新闻发布系统"的第二阶段项目中,主要目标是实现一级标题的发布功能。开发人员需要编写JSP(JavaServer Pages)脚本,这是Java Web应用中的动态网页技术,用于生成客户端浏览器可见的HTML内容。同时,需要编写Servlet,这是一种特殊的Java类,用于处理HTTP请求并生成响应,是服务器端的逻辑处理核心。 在这一阶段,关键的任务包括: 1. **JSP编写**:开发者需熟练运用JSP语法,利用内置对象如session和page来存储和管理用户状态信息,并使用JSP指令如include和page来组织代码结构,提高代码复用性。 2. **Servlet开发**:掌握Servlet的生命周期,包括初始化、服务请求、处理请求、销毁等各个阶段。理解如何使用HttpServletRequest, HttpServletResponse和HttpSession对象来与客户端进行交互,以及如何控制页面转向。 3. **数据操作**:设计并实现程序,将一级标题对象的属性(如编号、标题名、创建者和时间)持久化到FirstLevelTitle数据库表中。这涉及到数据库连接和SQL操作。 4. **解决问题**:在整个开发过程中,鼓励独立思考和解决问题,而不是单纯依赖预设的解决方案或模板,以提升自己的编程技能和问题解决能力。 阶段划分明确,分为四个阶段: - 第一阶段:数据库设计和实现,包括创建news数据库,以及FirstLevelTitle和SecondLevelTitle两个表,使用直连方式连接数据库。 - 第二阶段:专注于一级标题的发布功能,这是当前的重点。 - 第三阶段:扩展到二级标题的发布,同样涉及JSP和Servlet的编写。 - 第四阶段:完成新闻发布系统的前端展示,实现新闻内容的查询和显示,可能还包括数据库访问程序的编写。 难点解析部分强调了MVC(Model-View-Controller)模式的理解,以及JSP中内置对象的使用和JSP指令的应用。对于Servlet,需要掌握其生命周期管理以及与HTTP请求的交互。 整个项目要求参与者在实践中不断学习和成长,通过实际编码解决问题,提升自己的编程和系统设计能力。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

物体识别算法在ROS中的应用案例:探索机器人视觉的实际应用

![物体识别算法在ROS中的应用案例:探索机器人视觉的实际应用](https://www.guyuehome.com/Uploads/wp/2016/02/1.png) # 1. 物体识别算法概述** 物体识别算法是一类计算机视觉算法,用于从图像或视频中识别和定位物体。这些算法通常采用机器学习技术,通过分析图像中的特征来检测和分类物体。物体识别算法在机器人技术、自动驾驶和工业自动化等领域有着广泛的应用。 常见的物体识别算法包括: * **基于区域的算法:**这些算法将图像分割成区域,并分析每个区域的特征来识别物体。 * **基于边缘的算法:**这些算法检测图像中的边缘,并使用边缘信息来识
recommend-type

stm32G474RET6

STM32G474RET6是一款基于Arm Cortex-M4F内核的微控制器,由STMicroelectronics(ST)公司生产。它是STM32G4系列的一部分,专为低功耗和高性能应用设计,特别适合于物联网(IoT)、工业自动化、嵌入式系统和电池供电设备。 该芯片的主要特点包括: - 高性能:运行速度高达80MHz,提供了足够的计算能力执行复杂的任务。 - 能效优化:支持多种省电模式,如LPWR、HSE和ULP等,延长电池寿命。 - 大内存:内置Flash存储器容量较大,通常有512KB至2MB不等,以及RAM大小范围。 - 高速通信接口:支持多种外设接口,如USART、SPI、I2C
recommend-type

自定义新闻发布系统的第三阶段:二级标题发布与编码实战

在这个关于新闻发布系统的第三阶段开发任务中,目标是实现二级标题的发布功能。首先,你需要熟练掌握Java技术栈,特别是JSP(JavaServer Pages)和Servlet的运用,因为它们是构建Web应用的核心组件。JSP负责动态网页的呈现,利用内置对象如session和page来管理会话状态和页面内容。JSP指令如include和page则用于引入和操作页面元素。 Servlet作为服务器端的处理程序,理解其生命周期以及如何处理HttpRequest、HttpResponse和HttpSession是关键。页面转向的控制,包括重定向和请求转发,也是不可或缺的一部分。此外,你需要熟悉web.xml配置文件,它是Servlet容器用来部署和管理Servlet的元数据。 具体到本阶段的任务,你需要编写相关的JSP和Servlet代码,以实现二级标题信息的录入和存储,即往SecondLevelTitle表中写入数据。这涉及数据验证、业务逻辑处理以及与数据库交互。在整个过程中,鼓励独立思考和实践,遇到问题时主动解决,不断调试和优化代码。 数据库设计方面,已提到的news数据库中包含了FirstLevelTitle和SecondLevelTitle两个表,用于存储一级标题和二级标题的相关信息,如编号、标题名、创建者、创建时间和关联关系。第一阶段的任务重点在于设计和实现数据库,而第三阶段则是将这些设计转化为实际的代码实现。 在编码时,你需要遵循MVC(Model-View-Controller)模式,合理划分职责,确保系统的结构清晰,易于维护。同时,注意界面的显示和新闻内容的链接功能,使得用户能够方便地查看新闻详情。