上篇文章,写了使用spark集成es框架,并向es写入数据,虽然能够成功,但从集成度上来讲肯定没有官网提供的ES-Hadoop框架来的优雅,今天我们就来认识一下ES-Hadoop这个框架。
我们都知道Hadoop是标准的大数据生态代表,里面有非常多的组件来处理不同类型或者场景下的数据,Hadoop的基础组件是YARN,HDFS,MapReduce,我们都知道HDFS是可靠的分布式存储系统,大多数我们都是用MapReduce来分析数据,唯一的不足之处在于速度,为了解决这种问题所以才有了Hbase,Spark,Kylin,Presto,Imapla等等许多框架。而我们的elasticsearch却恰恰相反,尤其是其定位高性能的搜索引擎,处理多维数据的检索分析非常高效,此外ES也是一个分布式的,高可靠的,可扩展的搜索框架,这些特点也决定了其处理海量数据的效率也是非常出色的。但es和hadoop属于两个不同的框架,如果想互相共享数据来处理,就需要自己来写程序把各自的数据导入需要的一方,过程非常繁琐,并且需要关注各自框架的版本,从而容易出现问题。
ES-Hadoop的出现则解决了这个问题,我们可以把它看做是ES和Hadoop大数据生态圈之间的数据桥梁,通过它,我们可以快速的分析Hadoop里面的海量数据。
前面说了Hadoop的MapReduce定位是一个离线的批处理计算框架,而现在越来越多的服务,都要求是实时或者近实时的交互式分析,通过ES-Hadoop我们可以轻松的将Hadoop集群上面的数据导入到ES,从而通过使用ES来获得高性能,低延迟,并支持各种聚合,空间检索以及产品推荐的一些特性。最后还可以使用Kibana提供的可视化的数据分析一条龙服务,非常棒的组合。
整个数据流转图如下:
ES-Hadoop无缝打通了ES和Hadoop两个非常优秀的框架,我们既可以把HDFS的数据导入到ES里面做分析,也可以将es数据导出到HDFS上做备份,归档,其中值得一提的是ES-Hadoop全面的支持了Spark框架,其中包括Spark,Spark Streaming,Spark SQL,此外也支持Hive,Pig,Storm,Cascading,当然还有标准的MapReduce,无论用那一个框架集成ES,都是非常简洁的。
最后ES-Hadoop对各种版本的Hadoop都支持,这里面包含社区版本的Apache Hadoop,Cloudrea的CDH,MapR以及Hortonworks的HDP所以无论我们使用哪个版本的Hadoop都可以非常easy的与ES集成,从而让ES的强大性能帮助我们快速分析海量数据。
有什么问题可以扫码关注微信公众号:我是攻城师(woshigcs),在后台留言咨询。 技术债不能欠,健康债更不能欠, 求道之路,与君同行。
- 大小: 27.5 KB
分享到:
相关推荐
Titan 是一个在服务器集群搭建的分布式的图形数据库,特别为存储和处理大规模图形而优化。...插件式索引架构可以整合 ElasticSearch 和Lucene技术。内置实现 Blueprints graph API,支持 TinkerPop所有的技术。
Elasticsearch 作为数据的源或接收器。 :将 Wukong 和其他 wu-tools 编排在一起,以支持在 Infochimps 平台上运行的应用程序。 安装和设置 Wukong-Hadoop 可以作为 RubyGem 安装: $ sudo gem install wukong-...
elasticsearch-auth.zip,此插件筛选ElasticSearch内容。ElasticSearch的身份验证筛选器
Titan 是一个在服务器集群搭建的分布式的图形数据库,特别为存储和处理大规模图形而优化。...插件式索引架构可以整合 ElasticSearch 和Lucene技术。内置实现 Blueprints graph API,支持 TinkerPop所有的技术。
elasticsearch-dataformat.zip,此插件在ElasticSearch上提供多个response formats.excel/csv/bulkjson下载。
YARN上用于Elasticsearch的Ambari插件: ://www.elastic.co/guide/en/elasticsearch/hadoop/current/es-yarn.html插件支持PivotalHD30,Hortonworks HDP2.2和HDP2.3 Hadoop发行版。 支撑位在Ambari 1.7到2.1之间。 ...
es = elasticsearch.Elasticsearch(['192.168.174.10'], http_auth=('user', 'password'), port=9200) es_index = 'test' 在config.py中修改数据库连接, 并在mysql中新建相应的数据库 SQLALCHEMY_DATABASE_URI = '...
课程内容通过ElasticSearch集群的构建,各种相关插件的安装,Netty服务器构建,集群健康状况,各个节点状态,索引状态查看,结合es的备份和恢复,以及如何与hadoop,spark等整合,非常强悍的高级课程。 视频大小:...
Spring Boot + Spring Cloud+Nacos+OpenFeign+Spring Cloud GateWay+MyBatis进行开发,使用 Shiro 做登录验证和权限校验,使用支付宝的沙箱环境进行支付,使用ElasticSearch作为商品搜索服务,使用 Hadoop的HDSF作为...
450+ AWS,Hadoop,云,Kafka,Docker,Elasticsearch,RabbitMQ,Redis,HBase,Solr,Cassandra,ZooKeeper,HDFS,Yarn,Hive,Presto,Drill,Impala,Consul,Spark,Jenkins,Travis CI,Git,MySQL ,Linux,...
非常详尽的一次关于ElasticSearch构建专业级...通过ElasticSearch集群的构建,各种相关插件的安装,Netty服务器构建,集群健康状况,各个节点状态,索引状态查看,结合es的备份和恢复,以及如何与hadoop,spark等整合。
【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程...大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx
维基百科数据倒排索引的Mapreduce 小心:这只是匆忙完成的... |- src/main/com/clqb |- app |- WordCountAtPage.java |- WordFreqAtPage.java |- PageCount.java |- WordAtPageTFIDF.java |- ElasticSearch.java |-
适用于AWS,Hadoop,大数据和NoSQL技术的专用插件,由前Clouderan( 是第一家Hadoop大数据供应商)和前顾问编写。 支持大多数主要的开源NoSQL技术,Pub-Sub /消息总线,基于CI,Web和Linux的基础架构,包括: 与...
【kettle集成cdh6.1】外部数据源读写hdfs若干...在此之前,我已经从CDH HDFS管理页面将所需要的core-site.xml、hdfs-site.xml等文件下载并放置至相应的插件位置,又从HADOOP在里将hadoop-client-3.0.0-cdh6.1.0.jar、h
【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程...大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx
【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程...大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx
【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程...大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx
【完整课程列表】 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx 大数据与云计算教程课件 优质大数据课程...大数据与云计算教程课件 优质大数据课程 41.Elasticsearch(共17页).pptx
且能够集成已有的分析工具支持实时的Telemetry搜索和跨Telemetry的匹配支持自动生成报告、和异常报警支持原数据包的抓取、存储、重组支持数据驱动的安全模型OpenSOC 官方文档介绍了以下五大优点:由思科全力支持,...