最近,由于工作需要,需要对爬虫爬下来的网页数据进行相似度去重。 那么问题来了,为什么要去重? 爬虫采集的数据可能来自各个网站,比如一个热门新闻,可能网易,搜狐,新浪,都有转载报道,如果不做任何措施,那么存储到库里就是3条...
阅读(179) 评论(0)
今天在用maven打包spring-boot项目时,报了如下的一个异常: [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plu...
阅读(346) 评论(0)
ExternalFileField是一种非常灵活的定义排序的一种字段,适用于一些需要临时提高某些doc的排名,但是又不想显式的把评分建立到索引里面,这种需求,在电商的业务里面,经常会遇到一些特定的节日进行商品大促,需要临时提高...
阅读(156) 评论(0)
Intellj IDEA里面使用jetty调试web有2种方式: (1)Jetty Server (在本地local模式运行),使用外部的容器,需要单独下载配置配置jetty home Jetty下载地址http://dow...
阅读(177) 评论(0)
环境: Hadoop版本:Apache Hadoop2.7.1     Spark版本:Apache Spark1.4.1 核心代码: 测试数据: a,b,a c,d,f a,b,...
阅读(176) 评论(0)