python使用自定义user-agent抓取网页的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了python使用自定义user-agent抓取网页的方法。分享给大家供大家参考。具体如下：

下面python代码通过urllib2抓取指定的url的内容，并且使用自定义的user-agent，可防止网站屏蔽采集器

import urllib2
req = urllib2.Request('http://192.168.1.2/')
req.add_header('User-agent', 'Mozilla 5.10')
res = urllib2.urlopen(req)
html = res.read()

希望本文所述对大家的Python程序设计有所帮助。

返回列表

前言上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。本次爬取的豆...

本文实例主要实现的是使用urllib和BeautifulSoup爬取维基百科的词条，具体如下。简洁代码： #引入开发包 from urllib.request import url...

一、同步与异步 #同步编程（同一时间只能做一件事，做完了才能做下一件事情） <-a_url-><-b_url-><-c_url-> #异步编程...

用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*- import re import urllib2 from bs4import Bea...

Queue Tornado的tornado.queue模块为基于协程的应用程序实现了一个异步生产者/消费者模式的队列。这与python标准库为多线程环境实现的queue模块类似。一个协...

宜配屋