获取人人网当前用户的个人详情页数据

当前位置博文首页 > 文章内容

最大化缩小

作者：栏目：未分类时间：2020-07-28 9:00:20

本站于2023年9月4日。收到“大连君*****咨询有限公司”通知
说我们IIS7站长博客，有一篇博文用了他们的图片。
要求我们给他们一张图片6000元。要不然法院告我们

为避免不必要的麻烦，IIS7站长博客，全站内容图片下架、并积极应诉
博文内容全部不再显示，请需要相关资讯的站长朋友到必应搜索。谢谢！

另祝：版权碰瓷诈骗团伙，早日弃暗投明。

相关新闻：借版权之名、行诈骗之实，周某因犯诈骗罪被判处有期徒刑十一年六个月

叹！百花齐放的时代,渐行渐远!

#编码流程：
#1.验证码的识别，获取验证码图片的文字数据
#2.对post请求进行发送（处理请求函数）
#3.对响应函数进行持久化存储

import requests
from lxml import etree
from CodeClass import YDMHttp

#创建一个session对象
session = requests.Session()

#1.对验证码图片进行捕获和识别
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2626.106 Safari/537.36'
}

url = 'http://www.renren.com/SysHome.do'
page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)
code_img_src = etree.xpath('//*[@id="verifyPic_login"]/@src')[0]
code_img_data = requests.get(url=code_img_src,headers=headers).content
with open('./code.jpg','wb') as fp:
    fp.write(code_img_data)

#使用云打码提供的示例代码对验证码图片进行识别
result = getCodeText('code.jpg',2004)

#post请求的发送（模拟登录）
login_url = ''

data = {

}

#使用session进行post请求的发送
response = session.post(url=login_url,headers=headers,data=data)
print(response.status_code)

#爬取当前用户个人主页对应的页面数据
detail_url = 'http://www.renren.com/974813621/profile'
# headers = {
#     'Cookie':'xxxx'
# }
#使用携带cookie的session进行get请求发送
detail_page_test = session.get(url=detail_url,headers=headers).text
with open('./bob.html','w',encoding='utf-8') as fp:
    fp.write(detail_page_text)

立即下载 - IIS7 站长工具包

获取人人网当前用户的个人详情页数据

作者： 栏目：未分类 时间：2020-07-28 9:00:20

作者：栏目：未分类时间：2020-07-28 9:00:20