`
qindongliang1922
  • 浏览: 2146758 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:116306
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:124576
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:58444
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:70342
社区版块
存档分类
最新评论

Spark入门之WordCount

阅读更多




环境:
Hadoop版本:Apache Hadoop2.7.1
    Spark版本:Apache Spark1.4.1
核心代码:



测试数据:
a,b,a
c,d,f
a,b,h,p,z
a,f,o


在命令行使用sbt打包:sbt clean package
上传jar至Hadoop或者Spark的集群上,如何提交?

三种模式提交:
(1)需要启动HDFS+YRAN,无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

(2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

(3)//需要启动HDFS+YRAN,无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar 

执行结果:
(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图:








最后欢迎大家扫码关注微信公众号:我是攻城师(woshigcs),我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!



  • 大小: 31.4 KB
  • 大小: 439.9 KB
  • 大小: 569.9 KB
  • 大小: 85.8 KB
1
2
分享到:
评论

相关推荐

    Spark从入门到精通

    6、大量全网唯一的知识点:基于排序的wordcount,Spark二次排序,Spark分组取topn,DataFrame与RDD的两种转换方式,Spark SQL的内置函数、开窗函数、UDF、UDAF,Spark Streaming的Kafka Direct API、...

    大数据Spark入门到精通v3.0版

    009 - Spark框架 - 快速上手 - WordCount - Spark的实现.avi 010 - Spark框架 - 快速上手 - WordCount - 日志和错误.avi 011 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作.avi 012 - Spark框架 - 运行环境 -...

    基于eclipse的spark入门基础案例(hadoop、spark)

    第一章 Hortonworks安装 第二章 在Eclipse中运行Hadoop平台的WordCount程序 第三章 在Eclipse中运行Spark平台的WordCount程序

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包...

    README.md文档

    spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that ...

    Spark分布式内存计算框架视频教程

    2.入门案例:WordCount 3.输入源InputSources 4.Streaming Query 设置 5.输出终端OutputSink 6.集成Kafka(Source和Sink) 7.案例:物联网设备数据分析 8.事件时间窗口分析 9.Streaming Deduplication数据去重 10....

    Flink入门及实战V1.6.1-2018最新

    Flink入门及实战最新内容分享,包含Flink基本原理及应用场景、Flink vs storm vs sparkStreaming、Flink入门案例-wordCount、Flink集群安装部署standalone+yarn、Flink-HA高可用、Flink scala shell代码调试

    Spark Core 笔记02

    Spark Core学习 对最近在看的赵星老师Spark视频中...Spark Core入门案例。 //创建spark配置,设置应用程序名字 //val conf=new SparkConf().setAppName(ScalaWordCount) //设置本地调试 val conf=new SparkConf().setAp

    spark-starter:带有测试套件的示例 Spark 启动应用程序说明字数

    将此用作编写 Spark 应用程序的入门模板。 包括什么 具有所需依赖项的build.sbt assembly.sbt链接到程序集插件 WordCount火花应用 Spark 的WordCountSpec测试套件 包装罐子 您需要在系统上安装 sbt 来构建应用程序...

    bigdata-essentials:所有与大数据相关的工具一次集中存储即可构建框架

    分组订购清楚的加盟udf用法展平 紧缩快速启动关于紧缩字数航空管道实木复合地板管道文本到序列紧缩火花如何写mapfn 如何写filterfn 如何写dofn 在Scala紧缩 快速启动火花壳ScalaSpark Scala字数统计 nifi-快速启动...

Global site tag (gtag.js) - Google Analytics