Python使用scrapy采集数据过程中放回下载过大页面的方法

yipeiwu_com6年前 (2020-03-06)Python基础

本文实例讲述了Python使用scrapy采集数据过程中放回下载过大页面的方法。分享给大家供大家参考。具体分析如下：

添加以下代码到settings.py，myproject为你的项目名称

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.LimitSizeHTTPClientFactory'

自定义限制下载过大页面的模块

复制代码代码如下:

MAX_RESPONSE_SIZE = 1048576 # 1Mb

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory, ScrapyHTTPPageGetter

class LimitSizePageGetter(ScrapyHTTPPageGetter):

    def handleHeader(self, key, value):

        ScrapyHTTPPageGetter.handleHeader(self, key, value)

        if key.lower() == 'content-length' and int(value) > MAX_RESPONSE_SIZE:

            self.connectionLost('oversized')

class LimitSizeHTTPClientFactory(ScrapyHTTPClientFactory):

     protocol = LimitSizePageGetter

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python中for循环详解

与其它大多数语言一样，Python 也拥有 for 循环。你到现在还未曾看到它们的唯一原因就是，Python 在其它太多的方面表现出色，通常你不需要它们。其它大多数语言没有像 Pyth...

python对象与json相互转换的方法

在网络通信中，json是一种常用的数据格式，对于python来讲，将类转化为json数据以及将json数据转化为对象是一件非常容易的事情。下面给出两者转化的方法 # -*- cod...

面向对象学习之pygame坦克大战

经过一天多的奋战，查阅文献，参考别人的代码等等，完成了第一个面向对象的小项目，也深深体会到面向对象编程思想在游戏编程中所扮演的角色。附上代码，参考了别人的代码，以及对他们代码的完善，又...

Python实现的多线程端口扫描工具分享

昨晚今晚写了两晚，总算把Py Port Scanner 写完了，姑且称之为0.1版本，算是一个Python多线程端口扫描工具。水平有限，实话中间有一些困惑和不解的地方，代码可能也写的比...

对Django url的几种使用方式详解

利用Django开发网站，可以设计出非常优美的url规则，如果url的匹配规则（包含正则表达式）组织得比较好，view的结构就会比较清晰，比较容易维护。最简单的形式 <cod...

宜配屋

Python使用scrapy采集数据过程中放回下载过大页面的方法

相关文章

Python中for循环详解

python对象与json相互转换的方法

面向对象学习之pygame坦克大战

Python实现的多线程端口扫描工具分享

对Django url的几种使用方式详解

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python使用scrapy采集数据过程中放回下载过大页面的方法

相关文章

Python中for循环详解

python对象与json相互转换的方法

面向对象学习之pygame坦克大战

Python实现的多线程端口扫描工具分享

对Django url的几种使用方式详解

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号