直接上代码:可以上传jar包,给远程的spark集群,这样能在idea中windows环境上运行代码:
package com.tools.hbase
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.spark.{SparkContext, SparkConf}
/**
* Created by qindongliang on 2016/1/12.
*/
object HbaseTest {
def main(args: Array[String]) {
System.setProperty("user.name", "webmaster");
System.setProperty("HADOOP_USER_NAME", "webmaster");
val jarPath="target\\scala-2.11\\scala-spark_2.11-1.0.jar";
val sparkConf=new SparkConf().setMaster("spark://192.168.1.187:7077").setAppName("read hbase");
val seq=Seq(jarPath) :+ "D:\\bigdata\\hbaselib\\hbase-protocol-0.98.12-hadoop2.jar" :+ "D:\\bigdata\\hbaselib\\hbase-common-0.98.12-hadoop2.jar" :+ "D:\\bigdata\\hbaselib\\htrace-core-2.04.jar" :+ "D:\\bigdata\\hbaselib\\hbase-client-0.98.12-hadoop2.jar" :+ "D:\\bigdata\\hbaselib\\hbase-server-0.98.12-hadoop2.jar" :+ "D:\\bigdata\\hbaselib\\guava-12.0.1.jar"
// val seq=Seq(jarPath)
// println("jar包路径:"+seq)
sparkConf.setJars(seq)
val sc=new SparkContext(sparkConf);
val conf=HBaseConfiguration.create();
conf.set("hbase.zookeeper.quorum", "192.168.1.187");
conf.set(TableInputFormat.INPUT_TABLE,"xxxx")
//得到Hbase的Result转成RDD
val rdd=sc.newAPIHadoopRDD(conf,classOf[TableInputFormat]
,classOf[ImmutableBytesWritable],classOf[Result]);
val count=rdd.count();
println("数量:"+count)
sc.stop();
}
}
分享到:
相关推荐
使用spark读取hbase中的数据,并插入到mysql中
spark使用java读取hbase数据做分布式计算.pdf
hbase-rdd:Spark RDD从HBase读取,写入和删除
用于将 Spark 与 Apache HBase 数据结合使用的集成实用程序。 支持 基于 HBase 读取的扫描 基于 HBase 写入的 batchPut 基于 HBase 读取的分析 HFile 基于 HBase 写入的批量加载 要求 这个库需要 Spark 1.2+
在这里,我们提供了Scala中的一个新示例,该示例涉及通过Spark将hbase中保存的数据传输到String ,以及python转换器的新示例。 scala 的示例将保存在hbase中的数据传输到RDD[String] ,该数据包含columnFamily,...
最近看了hbase的源码根据源码写了一些scala调动hbase表的API,话不多说直接上代码!Hadoop的版本是2.7.3,scala版本是2.1.1,hbase的版本是1.1.2 如果版本不同可以修改pom的依赖项,但要注意版本冲突。 并且在scala...
SparkStreaming_HBase将从Kafka收集过来的数据保存到HBase中数据来源:日志生成器。 编写一个python工程,用于产生行为日志,每运行一次,产生所设定的数量数据,使用Linux的定时器,每隔60s执行一次,行为日志保存...
从HBase表读取并写入HBase表的简单Spark Streaming项目 #Prereqs运行 创建一个要写入的hbase表:a)启动hbase shell $ hbase shell b)创建表create'/ user / chanumolu / sensor',{NAME =>'data'},{NAME =>'...
使用方法: 请使用eclipse的maven导入方式导入,代码在http://blog.csdn.net/q79969786/article/details/42793487有介绍
hbase-rdd, 从HBase读取并写入 RDD ? 这个项目允许将 Apache Spark 连接到 HBase 。 现在可以在 Scala 2.10和版本 2.11上使用Spark和 CDH5.0. 版本,在版本/版本 0.2.2-SNAPSHOT 工作时使用Spark和版本
搭建hadoop框架中的hbase集群之前,先搭建单机的hbase,了解hbase的参数配置可以在后续搭建hbase集群节省时间
#introduction Spark Streaming与OpenCV传感器数据实时获取:熟悉OpenCV的使用,获取本机的摄像头的图像数据,并通过SparkStreaming做实时分析 #Client client使用OpenCV抓取摄像头数据,按照一定的时间,捕捉每帧...
Spark Streaming与OpenCV传感器数据实时获取:熟悉OpenCV的使用,获取本机的摄像头的图像数据,并通过SparkStreaming做实时分析 #Client client使用OpenCV抓取摄像头数据,按照一定的时间,捕捉每帧图像,将图像数据...
两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和...
spark2.3 读取hive问题处理读取不到hive中的数据库?spark通过hive读取hbase外连表,报Class Not Found等异常?手动指定s
两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和...
Spark 不仅仅能够将 HDFS (分布式文件系 统) 上面的文件读取为分布式数据集, 还支持本地文 件、 Hive、 HBase 等。 每一个 Spark 应用都会由一个驱动 器程序 (Driver Program) 来发起集群上的并行操作[2]。 3 ...
课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 课时10:最终获取用户的收藏以及订单转换率 课时11:Spark...
两种东西,其一是IBM微软数据产品为代表的,其二是Hadoop+Hive+Apache Hive数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。 可以将结构投影到已经存储的数据上。 提供了命令行工具和...