Spark入门之WordCount

qindongliang1922

浏览: 2146758 次
性别:
来自: 北京

最近访客更多访客>>

godandghost

youhere

tanss

fengshuo850420

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：116306

: 证道Hadoop
浏览量：124576

: 证道shell编程
浏览量：58444

: ELK修真
浏览量：70342

文章分类

社区版块

存档分类

博客分类：

Scala
Spark

spark scala wordcount hadoop

环境:
Hadoop版本：Apache Hadoop2.7.1
Spark版本：Apache Spark1.4.1
核心代码：

测试数据：

a,b,a
c,d,f
a,b,h,p,z
a,f,o

在命令行使用sbt打包：sbt clean package
上传jar至Hadoop或者Spark的集群上，如何提交？

三种模式提交:
（1）需要启动HDFS+YRAN，无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

（2）启动spark的standalone集群，并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

（3）//需要启动HDFS+YRAN，无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar

执行结果：

(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图：

最后欢迎大家扫码关注微信公众号：我是攻城师(woshigcs)，我们一起学习，进步和交流!（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

查看图片附件

1
顶

2
踩

分享到：

Intellj IDEA+Jetty部署调试web项目 | Intellj IDEA+Maven如何构建多模块项目

2015-09-06 20:15
浏览 1536
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Spark入门之WordCount

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Spark入门之WordCount

评论

发表评论

相关推荐

Scala里面的排序函数的使用

在Scala里面如何使用元组

Spark如何读取一些大数据集到本地机器上

使用Spark SQL的临时表解决一个小问题

Spark任务两个小问题笔记

Spark中foreachPartition和mapPartitions的区别

Spark Streaming优雅的关闭策略优化

kafka版本不一致导致的一个小问题（二）

谈谈如何优雅的关闭正在运行中的Spark Streaming的流程序

如何管理Spark Streaming消费Kafka的偏移量（三）

理解Spark的运行机制

如何管理Spark Streaming消费Kafka的偏移量（二）

如何管理Spark Streaming消费Kafka的偏移量（一）

Scala里面如何使用枚举

使用Scala的强大api快速加工数据

在scala中使用spark sql解决特定需求（2）

在scala中使用spark sql解决特定需求

Spark如何在一个SparkContext中提交多个任务

如何使用scala+spark读写hbase？

使用ES-Hadoop插件结合spark向es插入数据

最近访客更多访客>>