当前位置 博文首页 > 文章内容

    python验证码识别

    作者: 栏目:未分类 时间:2020-07-28 9:00:19

    本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
    说我们IIS7站长博客,有一篇博文用了他们的图片。
    要求我们给他们一张图片6000元。要不然法院告我们

    为避免不必要的麻烦,IIS7站长博客,全站内容图片下架、并积极应诉
    博文内容全部不再显示,请需要相关资讯的站长朋友到必应搜索。谢谢!

    另祝:版权碰瓷诈骗团伙,早日弃暗投明。

    相关新闻:借版权之名、行诈骗之实,周某因犯诈骗罪被判处有期徒刑十一年六个月

    叹!百花齐放的时代,渐行渐远!



    验证码识别

    反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作

    识别验证码的操作:
    - 人工肉眼的识别
    - 第三方自动识别
    - 云打码
    模拟登录:
    - 爬取基于某些基于用户的用户信息.
    需求:对人人网进行模拟登录
    - 点击登录按钮之后会发起一个post请求
    - post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
    - 验证码:每次请求都会变化
    需求:
    爬取当前用户的相关用户信息(个人主页中相关的用户信息)

    http/https协议特征:无状态
    没有请求到对应数据的原因:
    发起的第二次基于个人
    cookie:用来让服务器端记录客户端的相关状态
    - 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
    - 自动处理:
    - cookie值的来源是哪里?
    - 模拟登录post请求后,由服务器端创建.
    - session会话对象:
    - 作用:
    - 可以进行请求的发送。
    - 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
    - 创建一个session对象,session= requests.Session()
    - 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
    - session对象对个人主页对应的get请求进行发送(携带了cookie)

    代理:
    破解封IP这种反爬机制

    什么是代理:
    - 代理服务器
    代理的作用:
    - 可以突破自身IP访问的限制
    - 可以隐藏自身IP被攻击、真实IP

    代理相关的网站:
    - 快代理
    - 西祠代理
    - www.goubanja.com