1,要求你已经成功把Hadoop集群安装完毕,并经过测试,如果不知道如何编译安装Hadoop请参考散仙的这篇文章
http://qindongliang.iteye.com/blog/2222145
2,安装Scala2.10.x版本,spark1.4.0最新版本的兼容2.10.x的scala,建议还是安装scala2.10.x的,虽然scala最新的版本是2.11.x了
安装方法:
(1) wget http://downloads.typesafe.com/scala/2.10.4/scala2.10.5.tgz_ga=1.83310549.215870088.1434449855
(2)tar -zxvf scala.xxx.tgz
(3)配置环境变量如下:
export SCALA_HOME=/ROOT/server/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin
(4)测试scala
[webmaster@any-hadoop-0 ~]$ scala -version
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL
[webmaster@any-hadoop-0 ~]$ scala
Welcome to Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79).
Type in expressions to have them evaluated.
Type :help for more information.
scala> print("scala install success")
scala install success
scala>
3,安装spark
(1)wget 下载hadoop对应版本的二进制包,散仙这里是hadoop2.6.0
wget http://archive.apache.org/dist/spark/spark-1.4.0/spark-1.4.0-bin-hadoop2.6.tgz
(2)解压到某个目录下,并命名为spark,下载下来的包名有点繁琐
(3)配置Spark的环境变量:
export SPARK_HOME=/ROOT/server/spark
export PATH=$PATH:$SPARK_HOME/bin
(4)进入spark/conf目录下,执行命令
mv spark-env.sh..template spark-env.sh
mv slaves.template slaves
(5)配置spark-env.sh,使用vi spark-env.sh编译此文件,在文末添加如下几行:
export SCALA_HOME=/ROOT/server/scala-2.10.4
export JAVA_HOME=$JAVA_HOME
export HADOOP_HOME=/ROOT/server/hadoop
export HADOOP_CONF_DIR=/ROOT/server/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_DRIVER_MEMORY=1G
(6)配置slaves
master
slave1
slave2
(7)执行scp命令,将环境变量,以及scala,spark的目录包,发送到各个节点上
(8)进入spark的根目录(因为hadoop的启动命令,跟这名字一样,所以,为避免冲突),执行sbin/start-all.sh启动spark集群;
(9)访问http://ip:8080查看spark的web界面
4,spark运行例子:
(1)本地模式运行
bin/run-example SparkPi 10 --master local[2]
(2)Spark Standalone集群运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 lib/spark-examples-1.4.0-hadoop2.6.0.jar 100
运行完,在spark的8080界面可以查看任务:
(3)在spark on yarn上 以yarn-cluster模式运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster lib/spark-examples*.jar 10
(5)以yarn-client模式运行:
bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client lib/spark-examples*.jar 10
运行完,在hadoop的8088界面监控如下:
yarn-cluster与yarn-client的区别?
前者是后台挂起的方式运行,终端关了,对我这个任务不影响
后者是交互式的方式运行,终端关了,这个任务就被kill了
最后欢迎大家扫码关注微信公众号:我是攻城师(woshigcs),我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!
- 大小: 406.6 KB
- 大小: 83.6 KB
- 大小: 366.5 KB
- 大小: 141.1 KB
- 大小: 546 KB
分享到:
相关推荐
hadoop-2.6.0.tar.gz + ideaIC-13.1.6.tar.gz + jdk-7u75-linux-i586.tar.gz + scala-2.10.4.tgz + spark-1.0.0-bin-hadoop2.tgz
Hadoop 2.6.0+Hbase1.12+mahout0.9 集群搭建,自己写的,可以根据实际情况搭建伪分布式或者完全分布式。
1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...
七月在线七月在线## Note, this file is written by cloud-init on first boot of an instance
徐老师大数据培训Hadoop+HBase+ZooKeeper+Spark+Kafka+Scala+Ambari
hadoop2.6.0插件+64位winutils+hadoop.dll
毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+Spark的大数据金融信贷风险控系统源码.zip毕业设计-基于Hadoop+...
hadoop+spark+hive Linux centos大数据集群搭建,简单易懂,从0到1搭建大数据集群
win10下搭建Hadoop(jdk+mysql+hadoop+scala+hive+spark),包括jdk的安装、mysql安装和配置,hadoop安装和配置,scala安装和配置,hive安装和配置,spark安装和配置。
Hadoop Spark R SparkR 大数据集群 安装文档。全是原生组件,部署在Centos系统上
hadoop2.2集群搭建遇到的各种问题。
spark-assembly-1.5.2-hadoop2.6.0 在spark编程中使用的一个jar
Hadoop2.9.2+Spark2.4.8安装手册.txt
hadoop2.6.0 hadoop.dll包括winutils.exe
看这一篇就够啦,给出一个完全分布式hadoop+spark集群搭建完整文档,从环境准备(包括机器名,ip映射步骤,ssh免密,Java等)开始,包括zookeeper,hadoop,hive,spark,eclipse/idea安装全过程,3-4节点,集群部署...
hadoop2.7+spark3.2.1+pyspark3.2.1+python3.9
Hadoop、Spark、hive、mapReduce经典学习资料
hadoop+spark分布式集群搭建及spark程序示例,例子程序为用二项逻辑斯蒂回归进行二分类分析和一个简单的求平均的程序,两种不同的运行方式
全套的Hadoop+Hbase+Spark+Hive搭建指导手册