在上篇笔记里面http://qindongliang.iteye.com/blog/2279738,我们已经下载好了基于docker的centos最新的镜像,本篇来看下如何构建,我们自己的一个镜像: 构建镜像二种方法:...
阅读(157) 评论(0)
先了解下docker是什么? Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互...
阅读(169) 评论(0)
在ELKK的架构中,各个框架的角色分工如下: ElasticSearch1.7.2:数据存储+全文检索+聚合计算+服务端 Logstasch2.2.2:日志收集与分发推送 Kafka0.9.0.0:分布式高可靠消息队列+数据...
阅读(419) 评论(0)
先来整体熟悉下Kafka的一些概念和架构 (一)什么是Kafka? Kafka是由LinkedIn开发并开源的一个分布式消息系统,因其分布式和高吞吐率被广泛应用,现在已经在Hadoop和Spark等大数据的生态系统中成为一...
阅读(302) 评论(0)
(一)Hbase协处理器的前世今生 Hbase是仿照Google的BigTable设计的,而其协处理器也是仿照BigTable的协处理实现完成的,具体链接可 参考:http://research.google.com/pe...
阅读(247) 评论(0)
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业...
阅读(849) 评论(0)
古时候,人们用一头牛拉不动一个耕地的犁时,不会去找个比这头牛更大的牛,而是会直接使用两个牛一起参与耕地。在分布式计算中,道理同样如此,Hadoop就是一个典型的例子。诸如此类的有很多,这就是典型水平切分架构。早期的solr仅...
阅读(354) 评论(0)
Flume是Cloudrea公司开源的一款优秀的日志收集框架,主要经历了两个大的版本,分别是 Flume-OG Flume-NG OG是0.9.x的版本,依赖zookeeper,角色职责不够单一, NG是新版本指1.x的版本...
阅读(356) 评论(0)
Spark Streaming是一种近实时的流式计算模型,它将作业分解成一批一批的短小的批处理任务,然后并行计算,具有可扩展,高容错,高吞吐,实时性高等一系列优点,在某些场景可达到与Storm一样的处理程度或优于storm,...
阅读(234) 评论(0)
集群概述: (一)组件 spark应用作为一系列独立的进程运行在集群上,通过SparkContext来协调,这个对象一般在我们的main程序里面,通常称为驱动程序, 特别的,为了能够在集群上运行,SparkContex...
阅读(159) 评论(0)
我们的一些业务数据,有些定义的是按某个分割符分割数据,然后一行一行的,处理这种数据时候,要务必小心,因为它简单,不用维护类似json格式的数据或者一个对象,而是直接通过下标位置来访问数据的,相信这种场景大家也都接触过,当然弊...
阅读(144) 评论(0)
基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7...
阅读(297) 评论(0)
基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0...
阅读(298) 评论(0)
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-sr...
阅读(1011) 评论(0)
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7....
阅读(205) 评论(0)
上一页 1 2 ... 5 6 7 8 9 10 11 12 ... 下一页共22页  到第