(1)、登录实质 互联网上的部分网站需要登录后方能访问,当我们打开网页并登录,就会在客户端生成Cookies(相当于个人身份证)信息,Cookies中包含了SessionId信息,登录后的请求都会带上Cookies发送给服务器,服务器...
阅读(17) 评论(0)
(1)、环境准备 requests + pymongo 库 (2)、页面分析 首先登录拉钩并输入关键字:爬虫工程师 我们可以发现这些数据都是js加载的 接着打开chrome的开发者工具选项并勾选XHR 我们发现我们需...
阅读(25) 评论(0)
(1)、前言 动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成 静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送给我们客户端 这里我们可以观察...
阅读(31) 评论(0)
思路分析: (1)选定起始人(即选择关注数和粉丝数较多的人--大V) (2)获取该大V的个人信息 (3)获取关注列表用户信息 (4)获取粉丝列表用户信息 (5)重复(2)(3)(4)步实现全知乎用户爬取  实战演练: (1)、...
阅读(57) 评论(0)
ITEM PIPELINE用法详解:    ITEM PIPELINE作用: 清理HTML数据 验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】 将爬取结...
阅读(21) 评论(0)
DOWNLOAD MIDDLEWRE用法详解                           &nbs...
阅读(29) 评论(0)
下面我们来学习Selector的具体使用:(参考文档:http://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/selectors.html) Selector简介:Scrapy框架提供了自己...
阅读(40) 评论(0)
下面我们来学习下Spider的具体使用: 我们已上节的百度阅读爬虫为例来进行分析: 1 # -*- coding: utf-8 -*-...
阅读(24) 评论(0)
前言: 有时我们在使用requests抓取数据时得到的返回结果会与浏览器中看到的内容不一致,这是因为requests只能得到原始的HTML文挡,而浏览器的页面是通过javascript处理数据后生成的,这些数据的来源可能是Ajax加载的...
阅读(23) 评论(0)
1、BeautifulSoup4库简介 What is beautifulsoup ? 答:一个可以用来从HTML 和 XML中提取数据的网页解析库,支持多种解析器(代替正则的复杂用法) 2、安装 pip3 install beaut...
阅读(21) 评论(0)