集群概述: (一)组件 spark应用作为一系列独立的进程运行在集群上,通过SparkContext来协调,这个对象一般在我们的main程序里面,通常称为驱动程序, 特别的,为了能够在集群上运行,SparkContex...
阅读(59) 评论(0)
我们的一些业务数据,有些定义的是按某个分割符分割数据,然后一行一行的,处理这种数据时候,要务必小心,因为它简单,不用维护类似json格式的数据或者一个对象,而是直接通过下标位置来访问数据的,相信这种场景大家也都接触过,当然弊...
阅读(82) 评论(0)
基础依赖环境 Apache Hadoop2.7.1 Apache Spark1.6.0 Apache Hive1.2.1 Apache Hbase0.98.12 (1)提前安装好scala的版本,我这里是2.11.7...
阅读(133) 评论(0)
基础环境: Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0...
阅读(120) 评论(0)
目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-sr...
阅读(461) 评论(0)
基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7....
阅读(74) 评论(0)
这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最终都一一击破,收获经验若干,折腾的过程,其实也是一个学习的...
阅读(359) 评论(0)
MySQL密码重置策略: 1,停止mysql服务   service mysql stop 2,跳过mysql的权限验证   mysqld --skip-grant-tables...
阅读(89) 评论(0)
环境如下: Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hba...
阅读(89) 评论(0)
1,执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native  lzop 2, 下载lzo的源码包并解压 wget http:...
阅读(83) 评论(0)
今天在开发环境,重启了下hadoop,发现log里面竟然打出,需要让重新输入本机器密码的提示,仔细查看,发现仅仅本机需要密码,其他的几台机器正常,碰到这种问题,一般都是SSH免密出现了问题,那就重新生成一个吧,先不出去追究哪...
阅读(67) 评论(0)
在DT大数据时代,海量数据的存储和分析是一个巨大的挑战,给我们的hadoop或者hbase集群添加数据压缩的能力,是必不可少的,通过压缩我们不但能节约磁盘空间,而且也能节省集群间网络带宽的损耗,从而间接提高了集群任务的整体执...
阅读(112) 评论(0)
Gradle是一款非常简洁的项目构建工具,相比ant和maven的繁琐的xml配置,gradle提供了非常简洁的命令,而这正得益于它的底层语言Groovy,目前在Android的项目的中,几乎都是使用的gradle来管理项目...
阅读(83) 评论(0)
基于solr或者elasticsearch提供的多核,多索引,多shard等查询能力,一般都是由lucene提供的多索引查询的功能演化而来的,这个功能在单机版的lucene里面确实没有发挥多大的威力,但是确是solrclou...
阅读(115) 评论(0)
总结下使用ssh远程执行命令需要注意点: 一般我们会使用ssh ip "执行命令"这种格式来执行远程是shell命令,但是如果是简单的一些操作还好,比如cd,rm,ls,mv等命令一般不会出问题 ,但是如果你的脚本任务是,...
阅读(70) 评论(0)
上一页 1 2 3 4 5 6 7 8 9 ... 下一页共19页  到第