Python打印scrapy蜘蛛抓取树结构的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
  urls = allurls[referer]
  for url in urls:
    print ' '*indent + referer
    if url in allurls:
      print_urls(allurls, url, indent+2)
def main():
  log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
  allurls = defaultdict(list)
  for l in fileinput.input():
    m = log_re.search(l)
    if m:
      url, ref = m.groups()
      allurls[ref] += [url]
  print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

相关文章

python抓取网页中链接的静态图片

本文实例为大家分享了python抓取网页中链接的静态图片的具体代码，供大家参考，具体内容如下 # -*- coding:utf-8 -*- #http://tieba.baid...

python requests爬取高德地图数据的实例

如下所示： 1.pip install requests 2.pip install lxml 3.pip install xlsxwriter import requests #想...

Python爬取视频(其实是一篇福利)过程解析

窗外下着小雨，作为单身程序员的我逛着逛着发现一篇好东西，来自知乎你都用 Python 来做什么？的第一个高亮答案。到上面去看了看，地址都是明文的，得，赶紧开始吧。下载流式文件，re...

python爬虫解决验证码的思路及示例

如果直接从生成验证码的页面把验证码下载到本地后识别，再构造表单数据发送的话，会有一个验证码同步的问题，即请求了两次验证码，而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决...

python正则匹配抓取豆瓣电影链接和评论代码分享

复制代码代码如下:import urllib.requestimport reimport time def movie(movieTag): ta...