宜配屋

Python实现从脚本里运行scrapy的方法

yipeiwu_com6年前 (2020-03-06)Python基础

本文实例讲述了Python实现从脚本里运行scrapy的方法。分享给大家供大家参考。具体如下：

#!/usr/bin/python

import os

os.environ.setdefault('SCRAPY_SETTINGS_MODULE', 'project.settings') #Must be at the top before other imports

from scrapy import log, signals, project

from scrapy.xlib.pydispatch import dispatcher

from scrapy.conf import settings

from scrapy.crawler import CrawlerProcess

from multiprocessing import Process, Queue

class CrawlerScript():

    def __init__(self):

        self.crawler = CrawlerProcess(settings)

        if not hasattr(project, 'crawler'):

            self.crawler.install()

        self.crawler.configure()

        self.items = []

        dispatcher.connect(self._item_passed, signals.item_passed)

    def _item_passed(self, item):

        self.items.append(item)

    def _crawl(self, queue, spider_name):

        spider = self.crawler.spiders.create(spider_name)

        if spider:

            self.crawler.queue.append_spider(spider)

        self.crawler.start()

        self.crawler.stop()

        queue.put(self.items)

    def crawl(self, spider):

        queue = Queue()

        p = Process(target=self._crawl, args=(queue, spider,))

        p.start()

        p.join()

        return queue.get(True)

# Usage

if __name__ == "__main__":

    log.start()

    """

    This example runs spider1 and then spider2 three times.

    """

    items = list()

    crawler = CrawlerScript()

    items.append(crawler.crawl('spider1'))

    for i in range(3):

        items.append(crawler.crawl('spider2'))

    print items

希望本文所述对大家的Python程序设计有所帮助。

Python实现从脚本里运行scrapy的方法

相关文章

Python多进程同步Lock、Semaphore、Event实例

python 匹配url中是否存在IP地址的方法

Python3 requests文件下载期间显示文件信息和下载进度代码实例

python 随机打乱图片和对应的标签方法

浅谈python已知元素,获取元素索引(numpy,pandas)

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python实现从脚本里运行scrapy的方法

相关文章

Python多进程同步Lock、Semaphore、Event实例

python 匹配url中是否存在IP地址的方法

Python3 requests文件下载 期间显示文件信息和下载进度代码实例

python 随机打乱 图片和对应的标签方法

浅谈python已知元素,获取元素索引(numpy,pandas)

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

Python3 requests文件下载期间显示文件信息和下载进度代码实例

python 随机打乱图片和对应的标签方法

© YiPeiWu.com 【宜配屋】粤ICP备17031333号