最近一个半月都在搞SparkStreaming+Hbase+Redis+ES相关的实时流项目开发,其中重度使用了ElasticSearch作为一个核心业务的数据存储,所以这段时间更新文章较少,现在开发基本完事,接下来的会写...
阅读(243) 评论(0)
框架版本 spark2.1.0 kafka0.9.0.0 当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程...
阅读(150) 评论(0)
上一篇(http://qindongliang.iteye.com/blog/2354381 )写了收集sparkstreaming的日志进入kafka便于后续收集到es中快速统计分析,今天就再写一篇如何在普通应用程序实时收...
阅读(352) 评论(0)
用过sparkstreaming的人都知道,当使用sparkstreaming on yarn模式的时候,如果我们想查看系统运行的log,是没法直接看的,就算能看也只是一部分。 这里的log分: (1)spark本...
阅读(318) 评论(0)
sparkstreaming集成kafka时的maven的pom依赖: <dependency> <groupId>org.apache.spark<...
阅读(197) 评论(0)
在互联网场景下,经常会有各种实时的数据处理,这种处理方式也就是流式计算,延迟通常也在毫秒级或者秒级,比较有代表性的几个开源框架,分别是Storm,Spark Streaming和Filnk。 曾经在一个项目里面用过阿里...
阅读(241) 评论(0)
正则在任何一门编程语言中,都是必不可少的一个模块,使用它来处理文本是非常方便的,尤其在处理在使用spark处理大数据的时候,做ETL需要各种清洗,判断,会了正则之后,我们可以非常轻松的面对各种复杂的处理,Scala里面的正则...
阅读(551) 评论(0)
好多从Java转过来使用Scala的人会发现Scala里面竟然没有break和contine关键字,其实不是这样的,Scala里面推荐使用函数式的风格解决break和contine的功能,而不是一个关键字。 如何在Scal...
阅读(471) 评论(0)
对于树形菜单,想必大家都不陌生,这种业务数据,由于量小,关系复杂,所以在关系型数据库中,存储的格式一般都如下所是: id,name,pid 01,bigdata,00 002,hadoop,01 003,spa...
阅读(138) 评论(0)
最近工作需要使用图形数据库来构建知识图谱,目前基于Java使用最广泛的有两个开源框架 (1) neo4j 社区版 免费 企业版 收费 (2) Titan 全开源 我们此次选择了neo4j的社区版,...
阅读(250) 评论(0)
最近付费订阅了由罗辑思维推荐的李笑来前辈的在得到App里面的专栏《通往财富自由之路》,看了几篇感觉还是有收获的,笔记下这两天看到的文章的一些概念或者结论。 (1)什么是财富自由 李笑来前辈,简答总结:指某个人再也不用...
阅读(172) 评论(0)
下载最新版Solr6.2.1 wget http://ftp.kddilabs.jp/infosystems/apache/lucene/solr/6.2.1/solr-6.2.1.tgz 如果是windows,...
阅读(149) 评论(0)
(一) 最大能索引字符串的长度 关于能索引最大的字符串长度,其实在Elasticsearch和Solr中都是由底层的Lucene决定的 (1)不分词+索引的字符串最大长度为32766字节 (2)分词+索引一般不会出现长度...
阅读(285) 评论(0)
编译Qconf git clone https://github.com/Qihoo360/QConf.git cd Qconf //注意如果不是root永恒,可能需要使用sudo权限 mkdir build &...
阅读(423) 评论(0)
有关strom的具体介绍,本文不再过多叙述,不了解的朋友可参考之前的文章 http://qindongliang.iteye.com/category/361820 本文主要以一个简单的wordcount例子,来了解下stor...
阅读(377) 评论(0)
上一页 1 2 3 4 5 6 7 8 9 10 ... 下一页共23页  到第