什么是网络爬虫

当前位置博文首页 > 文章内容

最大化缩小

作者：栏目：未分类时间：2020-08-13 14:01:17

本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
说我们IIS7站长博客，有一篇博文用了他们的图片。
要求我们给他们一张图片6000元。要不然法院告我们

为避免不必要的麻烦，IIS7站长博客，全站内容图片下架、并积极应诉
博文内容全部不再显示，请需要相关资讯的站长朋友到必应搜索。谢谢！

另祝：版权碰瓷诈骗团伙，早日弃暗投明。

相关新闻：借版权之名、行诈骗之实，周某因犯诈骗罪被判处有期徒刑十一年六个月

叹！百花齐放的时代,渐行渐远!

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫的基本流程

用户获取网络数据的方式：

方式1：浏览器提交请求--->下载网页代码--->解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫要做的就是方式2；

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

2.获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

3.解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4.保存数据

数据库（MySQL，Mongdb、Redis）

文件

Request

1.什么是Request？

服务器收到浏览器发送的信息后，能够根据浏览器发送信息的内容，做出相应的处理，然后把消息回传给浏览器，这个过程就叫做 HTTP Response 。

2.Response中包含什么？

举例

运行成功后我们看到打印出来的 html 源代码200 状态码了。基本实现了爬虫的 Request 和 Response 过程。

能抓到什么样的数据？

网页文本：如 HTML 文档， Ajax加载的 Json 格式文本等；

图片，视频等：可以获取到二进制文件，保存为图片或视频的格式；

其他你只要能够请求到的，都是可以获取。

举例

运行成功你就可以看到打印出来的图片的二进制数据，这个就是可以打印的。之后我们打开文件夹就可以看到下载下来的东西了。

解析方式有哪些？

立即下载 - IIS7 站长工具包