以前经常有人问散仙,如何学好搜索? 其实这个问题很具有代表性,你可以归纳为一类问题? 其实,散仙在以前博客的中,也有总结过,大家可以点击这个链接再看一下。 本篇散仙要介绍的内容,是关于如何用Luke查看Elastic...
阅读(171) 评论(0)
在Linux系统中,我们经常会使用vi或vim命令,来操作文本,有时候,我们的脚本文件出了错误,会抛出一个带行号的异常,然后我们根据提示,重新打开,我们的源码进行查看,而这时候,如果你的vim没有设置显示行号功能,我们查找出问...
阅读(241) 评论(0)
在Hadoop的生态系统中,如果我们要离线的分析海量的数据,大多数人都会选择Apache Hive或Apache Pig,在国内总体来说,Hive使用的人群占比比较高, 而Pig使用的人相对来说,则少的多,这并不是因为P...
阅读(198) 评论(0)
散仙在上篇文章中,介绍了关于ElasticSearch基本的增删改查的基本粒子,本篇呢,我们来学下稍微高级一点的知识: (1)如何在ElasticSearch中批量提交索引 ? (2)如何使用高级查询(包括,检索,...
阅读(278) 评论(0)
记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字符串里提取出第2列(冒号后面)的值: 1 2 3 4 a:ab#c#d a:c#c#d a:dd#c#d a:zz#c#d 如果是在java里...
阅读(166) 评论(0)
GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标,例如淘宝,京东都有这样的衡量标准,感兴趣的朋友可以自己科普下这方面的概念知识。 当然散仙今天,并不是来解释概念的,而是记录下最近工作的一些东西,原来...
阅读(227) 评论(0)
上篇介绍了如何把Pig的结果存储到Solr中,那么可能就会有朋友问了,为什么不存到数据库呢? 不支持还是? 其实只要我们愿意,我们可以存储它的结果集到任何地方,只需要重写我们自己的StoreFunc类即可。 关于如何将Pig...
阅读(154) 评论(0)
在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Ap...
阅读(150) 评论(0)
1 简介 Pig附带了一些的内置函数,这些函数包括(转换函数,加载和存储函数,数学函数,字符串函数,以及包和元组函数),在Pig里面主要有二种函数分别是内置函数和自定义的UDF函数,他们区别在于 第一:内置函数不需要被注册...
阅读(340) 评论(0)
相信大家都知道,在看一本书的时候,通过该书的目录和索引能够很快的了解本书内容和找到我们需要的页数,因为一本专业的书本往往记录的知识都非常全面,举个例子假如我们初学Hadoop,所以呢就购买了一本《Hadoop编程指南》,打算系...
阅读(271) 评论(0)
2014年已经悄然而逝了,春节回家过年的这段时间,由于家里没网,也有半个多月没有更新文章了,在这里散仙向各位亲爱的小伙伴们说句抱歉,以后在时间充裕的条件下,会尽量多分享一些文章,包括一些技术类和一些非技术类的,不喜欢在网页上浏...
阅读(195) 评论(0)