Spark Streaming是一种近实时的流式计算模型,它将作业分解成一批一批的短小的批处理任务,然后并行计算,具有可扩展,高容错,高吞吐,实时性高等一系列优点,在某些场景可达到与Storm一样的处理程度或优于storm,...
阅读(234) 评论(0)
集群概述: (一)组件 spark应用作为一系列独立的进程运行在集群上,通过SparkContext来协调,这个对象一般在我们的main程序里面,通常称为驱动程序, 特别的,为了能够在集群上运行,SparkContex...
阅读(159) 评论(0)
我们的一些业务数据,有些定义的是按某个分割符分割数据,然后一行一行的,处理这种数据时候,要务必小心,因为它简单,不用维护类似json格式的数据或者一个对象,而是直接通过下标位置来访问数据的,相信这种场景大家也都接触过,当然弊...
阅读(144) 评论(0)
基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7...
阅读(297) 评论(0)
基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0...
阅读(298) 评论(0)
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-sr...
阅读(1011) 评论(0)
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7....
阅读(205) 评论(0)
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的...
阅读(896) 评论(0)
MySQL密码重置策略: 1,停止mysql服务   service mysql stop 2,跳过mysql的权限验证   mysqld --skip-grant-tables...
阅读(159) 评论(0)
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hba...
阅读(179) 评论(0)
1,执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native  lzop 2, 下载lzo的源码包并解压 wget http:...
阅读(175) 评论(0)