有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会...
阅读(113) 评论(0)
先来看一下Group与Facet的区别: 相同点:两者都能分组一个或多个字段并求数量,并支持组内分页 不同点: facet可以对分组数量进行过滤,以及排序,和日期范围,时间范围分组,但是如果你想得到具体的数据,还得需要查询一...
阅读(110) 评论(0)
SimHash是什么 SimHash是Google在2007年发表的论文《Detecting Near-Duplicates for Web Crawling 》中提到的一种指纹生成算法或者叫指纹提取算法,被Google...
阅读(118) 评论(0)
文章关键词:java代理,jdk动态代理,cglib代理,AOP,切面编程 今天,逛技术博客时,无意间发现了一篇有关动态代理模式的文章,感觉写的不错,自己正好也在巩固下基础知识,虽然实际工作中用代理的模式的不是特别多,那是因...
阅读(78) 评论(0)
最近,由于工作需要,需要对爬虫爬下来的网页数据进行相似度去重。 那么问题来了,为什么要去重? 爬虫采集的数据可能来自各个网站,比如一个热门新闻,可能网易,搜狐,新浪,都有转载报道,如果不做任何措施,那么存储到库里就是3条...
阅读(95) 评论(0)
今天在用maven打包spring-boot项目时,报了如下的一个异常: [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plu...
阅读(138) 评论(0)
ExternalFileField是一种非常灵活的定义排序的一种字段,适用于一些需要临时提高某些doc的排名,但是又不想显式的把评分建立到索引里面,这种需求,在电商的业务里面,经常会遇到一些特定的节日进行商品大促,需要临时提高...
阅读(84) 评论(0)
Intellj IDEA里面使用jetty调试web有2种方式: (1)Jetty Server (在本地local模式运行),使用外部的容器,需要单独下载配置配置jetty home Jetty下载地址http://dow...
阅读(94) 评论(0)
环境: Hadoop版本:Apache Hadoop2.7.1     Spark版本:Apache Spark1.4.1 核心代码: 测试数据: a,b,a c,d,f a,b,...
阅读(88) 评论(0)
前提Spark集群已经搭建完毕,如果不知道怎么搭建,请参考这个链接: http://qindongliang.iteye.com/blog/2224797 注意提交作业,需要使用sbt打包成一个jar,然后在主任务里面添加j...
阅读(1520) 评论(0)
Spring Boot是什么? Spring Boot提供了一个强大的一键式Spring的集成开发环境,能够单独进行一个Spring应用的开发,其中: (1)集中式配置(application.properties...
阅读(260) 评论(0)
先简单说下业务:有一个单独的模块,可以在远程下载Hadoop上的索引,然后合并压缩,最后推送到solr服务器上 原来使用的是Ant打包,外部的jar是在执行主体的jar时cp进环境变量的,所以没有出现今天要说的这个问题,伪代...
阅读(130) 评论(0)
现在大公司的项目一般都会采取maven管理,因为大公司往往有多套环境配置,原来在的公司5套环境: (1)开发 (2)测试 (3)沙箱 (4)灰度 (5)线上 当然这只是理论上的,搞这么多环境的目的只有一个,就是尽量防止或减少...
阅读(121) 评论(0)
1,使用curl查询结果,并转成csv保存 curl http://localhost:8983/solr/company/query -d ' q=*:*& start=500& rows=300&...
阅读(92) 评论(0)
Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月...
阅读(143) 评论(0)
上一页 1 2 4 5 6 7 8 9 10 11 ... 下一页共19页  到第