先来整体熟悉下Kafka的一些概念和架构 (一)什么是Kafka? Kafka是由LinkedIn开发并开源的一个分布式消息系统,因其分布式和高吞吐率被广泛应用,现在已经在Hadoop和Spark等大数据的生态系统中成为一...
阅读(265) 评论(0)
(一)Hbase协处理器的前世今生 Hbase是仿照Google的BigTable设计的,而其协处理器也是仿照BigTable的协处理实现完成的,具体链接可 参考:http://research.google.com/pe...
阅读(203) 评论(0)
在大数据时代,列式存储变得越来越流行了,当然并不是说行式存储就没落了,只是针对的场景不同,行式存储的代表就是我们大多数时候经常用的数据库,比较适合数据量小,字段数目少,查询性能高的场景,列式存储主要针对大多数互联网公司中的业...
阅读(799) 评论(0)
古时候,人们用一头牛拉不动一个耕地的犁时,不会去找个比这头牛更大的牛,而是会直接使用两个牛一起参与耕地。在分布式计算中,道理同样如此,Hadoop就是一个典型的例子。诸如此类的有很多,这就是典型水平切分架构。早期的solr仅...
阅读(313) 评论(0)
Flume是Cloudrea公司开源的一款优秀的日志收集框架,主要经历了两个大的版本,分别是 Flume-OG Flume-NG OG是0.9.x的版本,依赖zookeeper,角色职责不够单一, NG是新版本指1.x的版本...
阅读(295) 评论(0)
Spark Streaming是一种近实时的流式计算模型,它将作业分解成一批一批的短小的批处理任务,然后并行计算,具有可扩展,高容错,高吞吐,实时性高等一系列优点,在某些场景可达到与Storm一样的处理程度或优于storm,...
阅读(201) 评论(0)
集群概述: (一)组件 spark应用作为一系列独立的进程运行在集群上,通过SparkContext来协调,这个对象一般在我们的main程序里面,通常称为驱动程序, 特别的,为了能够在集群上运行,SparkContex...
阅读(132) 评论(0)
我们的一些业务数据,有些定义的是按某个分割符分割数据,然后一行一行的,处理这种数据时候,要务必小心,因为它简单,不用维护类似json格式的数据或者一个对象,而是直接通过下标位置来访问数据的,相信这种场景大家也都接触过,当然弊...
阅读(124) 评论(0)
基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7...
阅读(259) 评论(0)
基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0...
阅读(258) 评论(0)
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-sr...
阅读(971) 评论(0)
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7....
阅读(174) 评论(0)
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的...
阅读(816) 评论(0)
MySQL密码重置策略: 1,停止mysql服务   service mysql stop 2,跳过mysql的权限验证   mysqld --skip-grant-tables...
阅读(136) 评论(0)
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hba...
阅读(153) 评论(0)
上一页 1 2 4 5 6 7 8 9 10 11 ... 下一页共21页  到第