记得我刚学python-requests库的时候总会有点晕,于是我做了以下关于requests库的知识点整理,方便初学者可以更好的了解requests库。如果有补充或错误,或者不懂的地方,可以评论区留言。
Requests是Python一个很实用的HTTP客户端,完全满足如今网络爬虫的需求
urllib库和requests库功能类似,但requests库功能更多更实用
pip命令安装(方法一)
源码安装(方法二)
测试
序号 |
方法 |
描述 |
1 |
requests.request(url) |
构造一个请求,支持以下各种方法 |
2 |
requests.get() |
发送一个Get请求 |
3 |
requests.post() |
发送一个Post请求 |
4 |
requests.head() |
获取HTML的头部信息 |
5 |
requests.put() |
发送Put请求 |
6 |
requests.patch() |
提交局部修改的请求 |
7 |
requests.delete() |
提交删除请求 |
最常用的方法为get()和post()分别用于发送Get请求和Post请求
序号 |
属性或方法 |
描述 |
1 |
response.status_code |
响应状态码 |
2 |
response.content |
把response对象转换为二进制数据 |
3 |
response.text |
把response对象转换为字符串数据 |
4 |
response.encoding |
定义response对象的编码 |
5 |
response.cookie |
获取请求后的cookie |
6 |
response.url |
获取请求网址 |
7 |
response.json() |
内置的JSON解码器 |
8 |
Response.headers |
以字典对象存储服务器响应头,字典键不区分大小写 |
# 不带参数的get请求 import requests url='http://www.baidu.com' resp = requests.get(url) # 设置响应的经编码格式 resp.encoding='utf-8' cookie=resp.cookies # 获取请求后的cookie信息 headers=resp.headers print('响应状态码:', resp.status_code) print('请求后的cookie:', cookie) print('获取请求的网址:', resp.url) print('响应头:', headers) print('响应内容', resp.text) ----------------------------------以下为输出结果---------------------------------- ''' 响应状态码: 200 请求后的cookie: <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]> 获取请求的网址: http://www.baidu.com/ 响应头: {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Fri, 23 Apr 2021 00:10:35 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:16 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'} 响应内容 <!DOCTYPE html> <!--STATUS OK--><html> <head><meta http-equiv=content-type......... '''
# 带参数的get请求 import requests url = 'https://tieba.baidu.com/f?' params = {'kw':'大学吧', 'pn':'3'} headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64)'} # 开始请求 html = requests.get(url=url, params=params, headers=headers).text print(html)
我们可以通过timeout属性设置超时时间,一旦超过这个时间还没获得响应内容,就会提示错误。
import requests requests.get('http://github.com', timeout=0.001) ---------------------以下为输出结果(报错)--------------------- Traceback (most recent call last): File "<stdin>", line 1, in <module> requests.exceptions.Timeout: HTTPConnectionPool(host='github.com', port=80): Request timed out. (timeout=0.001)
5.2.4.1 免费代理IP
import requests url = 'http://httpbin.org/get' headers = {'User-Agent':'Mozilla/5.0'} # 定义代理,再代理IP网站中查找免费代理IP proxies = { 'http':'http://112.85.164.220:9999', 'https':'https://112.85.164.220:9999' } html = requests.get(url=url,proxies=proxies,headers=headers,timeout=5).text print(html)
5.2.4.1 私密代理和独享代理
语法格式:proxies = { '协议':'协议://用户名:密码@IP:端口号'}
示例:
# 获取json数据 # 案例:百度获取宫崎骏动漫图片 # 滑动页面,URL没变化,F12中的文件越来越多,说明这是动态网页 # 选择XHR中的一个,复制其Request URL,粘贴给url import requests url='https://image.baidu.com/search/acjson?tn=resultjson_com&logid=10167214135414424439&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%AE%AB%E5%B4%8E%E9%AA%8F%E5%8A%A8%E6%BC%AB%E5%9B%BE%E7%89%87&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&word=%E5%AE%AB%E5%B4%8E%E9%AA%8F%E5%8A%A8%E6%BC%AB%E5%9B%BE%E7%89%87&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=&fr=&expermode=&force=&pn=30&rn=30&gsm=1e&1619134335166=' resp=requests.get(url) json_data=resp.json() print(json_data)
一般来说,对于非文本请求,可以以字节形式访问响应正文。
# 获取二进制数据 # 案例:保存百度图片 import requests url='https://www.baidu.com/img/bd_logo1.png' resp=requests.get(url) # 存储 with open('logo.png','wb') as file: # resp.content:把response对象转换为二进制数据 file.write(resp.content)
import requests url='https://www.xslou.com/login.php' data={'username':'18600605736', 'password':'57365736', 'action':'login'} resp = requests.post(url,data) resp.encoding='gb2312' print('响应状态码:', resp.status_code) # 200 print('响应内容', resp.text) # <html>......</html>
import requests url='https://www.xslou.com/login.php' data={'username':'18600605736', 'password':'57365736', 'action':'login'} # 使用session发送请求 session = requests.session() resp=session.post(url,data=data) # 使用session发送post请求 resp.encoding='gb2312' # print( resp.text) # <html>..<title>登录成功</title>....</html>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
长按识别二维码并关注微信
更方便到期提醒、手机管理