python3爬虫怎样构建请求header

yipeiwu_com6年前 (2020-03-06)Python爬虫

写一个爬虫首先就是学会设置请求头header，这样才可以伪装成浏览器。下面小编我就来给大家简单分析一下python3怎样构建一个爬虫的请求头header。

1、python3跟2有了细微差别，所以我们先要引入request，python2没有这个request哦。然后复制网址给url，然后用一个字典来保存header，这个header怎么来的？看第2步。

2、打开任意浏览器某一页面（要联网），按f12,然后点network，之后再按f5，然后就会看到“name”这里，我们点击name里面的任意文件即可。

3、之后右边有一个headers,点击headers找到request headers，这个就是浏览器的请求报头了。

4、然后复制其中的user-agent，其他的cookie还有Accept可以要也可以不要，主要是伪装成浏览器，所以我就用了user-agent

5、接着再用Request方法把url和headers组合在一起就可以构造一个比较简单的请求了。Request有三个参数（url,data,headers）,如果有使用data就是post请求了，没有就是get请求。这里我没有data，所以我就指定headers=header，不然header就会被当成data了。

6、请求对象rq就构造好了，然后用urlopen发送这个请求对象就可以了。这就是简单的请求头设置了。

总结：以上就是关于python3爬虫怎样构建请求头的相关知识点，感谢大家的阅读和对【听图阁-专注于Python设计】的支持。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

相关文章

Python爬取爱奇艺电影信息代码实例

Python爬取爱奇艺电影信息代码实例

这篇文章主要介绍了Python爬取爱奇艺电影信息代码实例,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下一，使用库　　1.reque...

python Selenium爬取内容并存储至MySQL数据库的实现代码

python Selenium爬取内容并存储至MySQL数据库的实现代码

前面我通过一篇文章讲述了如何爬取CSDN的博客摘要等信息。通常，在使用Selenium爬虫爬取数据后，需要存储在TXT文本中，但是这是很难进行数据处理和数据分析的。这篇文章主要讲述通过S...

利用Python爬取可用的代理IP

利用Python爬取可用的代理IP

前言就以最近发现的一个免费代理IP网站为例：http://www.xicidaili.com/nn/。在使用的时候发现很多IP都用不了。所以用Python写了个脚本，该脚本可以把能用...

Python使用Selenium+BeautifulSoup爬取淘宝搜索页

使用Selenium驱动chrome页面，获得淘宝信息并用BeautifulSoup分析得到结果。使用Selenium时注意页面的加载判断，以及加载超时的异常处理。 impor...

Python多进程方式抓取基金网站内容的方法分析

本文实例讲述了Python多进程方式抓取基金网站内容的方法。分享给大家供大家参考，具体如下：在前面这篇/post/162418.htm我们已经简单了解了”python的多进程”，现在我...