当前位置 博文首页 > 文章内容

    什么是网络爬虫

    作者: 栏目:未分类 时间:2020-08-13 14:01:17

    本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
    说我们IIS7站长博客,有一篇博文用了他们的图片。
    要求我们给他们一张图片6000元。要不然法院告我们

    为避免不必要的麻烦,IIS7站长博客,全站内容图片下架、并积极应诉
    博文内容全部不再显示,请需要相关资讯的站长朋友到必应搜索。谢谢!

    另祝:版权碰瓷诈骗团伙,早日弃暗投明。

    相关新闻:借版权之名、行诈骗之实,周某因犯诈骗罪被判处有期徒刑十一年六个月

    叹!百花齐放的时代,渐行渐远!



    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

    爬虫的基本流程

    用户获取网络数据的方式:

    方式1:浏览器提交请求--->下载网页代码--->解析成页面

    方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

    爬虫要做的就是方式2;

       

    1、发起请求

    使用http库向目标站点发起请求,即发送一个Request

    Request包含:请求头、请求体等

    Request模块缺陷:不能执行JS 和CSS 代码

    2.获取响应内容

    如果服务器能正常响应,则会得到一个Response

    Response包含:html,json,图片,视频等

    3.解析内容

    解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

    解析json数据:json模块

    解析二进制数据:以wb的方式写入文件

    4.保存数据

    数据库(MySQL,Mongdb、Redis)

    文件

    Request

    1.什么是Request?

    服务器收到浏览器发送的信息后,能够根据浏览器发送信息的内容,做出相应的处理,然后把消息回传给浏览器,这个过程就叫做 HTTP Response 。

    2.Response中包含什么?

     

    举例

     

    运行成功后我们看到打印出来的 html 源代码200 状态码了。基本实现了爬虫的 Request 和 Response 过程。

    能抓到什么样的数据?

    网页文本:如 HTML 文档, Ajax加载的 Json 格式文本等;

    图片,视频等:可以获取到二进制文件,保存为图片或视频的格式;

    其他你只要能够请求到的,都是可以获取。

    举例

     

    运行成功你就可以看到打印出来的图片的二进制数据,这个就是可以打印的。之后我们打开文件夹就可以看到下载下来的东西了。

    解析方式有哪些?