Python打印scrapy蜘蛛抓取树结构的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了Python打印scrapy蜘蛛抓取树结构的方法。分享给大家供大家参考。具体如下：

通过下面这段代码可以一目了然的知道scrapy的抓取页面结构，调用也非常简单

#!/usr/bin/env python
import fileinput, re
from collections import defaultdict
def print_urls(allurls, referer, indent=0):
  urls = allurls[referer]
  for url in urls:
    print ' '*indent + referer
    if url in allurls:
      print_urls(allurls, url, indent+2)
def main():
  log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)')
  allurls = defaultdict(list)
  for l in fileinput.input():
    m = log_re.search(l)
    if m:
      url, ref = m.groups()
      allurls[ref] += [url]
  print_urls(allurls, 'None')
main()

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

python爬虫模拟浏览器的两种方法实例分析

本文实例讲述了python爬虫模拟浏览器的两种方法。分享给大家供大家参考，具体如下：爬虫爬取网站出现403，因为站点做了防爬虫的设置一、Herders 属性爬取CSDN博客 i...

Python使用Selenium爬取淘宝异步加载的数据方法

淘宝的页面很复杂，如果使用分析ajax或者js的方式，很麻烦抓取淘宝‘美食'上面的所有食品信息 spider.py #encoding:utf8 import re from s...

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

今年五一放了四天假，很多人不再只是选择周边游，因为时间充裕，选择了稍微远一点的景区，甚至出国游。各个景点成了人山人海，拥挤的人群，甚至去卫生间都要排队半天，那一刻我突然有点理解灭霸的行为...

基于python框架Scrapy爬取自己的博客内容过程详解

前言 python中常用的写爬虫的库常有urllib2、requests,对于大多数比较简单的场景或者以学习为目的，可以用这两个库实现。这里有一篇我之前写过的用urllib2+Beaut...

Python爬虫模拟登录带验证码网站

爬取网站时经常会遇到需要登录的问题，这是就需要用到模拟登录的相关方法。python提供了强大的url库，想做到这个并不难。这里以登录学校教务系统为例，做一个简单的例子。首先得明白coo...

宜配屋

Python打印scrapy蜘蛛抓取树结构的方法

相关文章

python爬虫模拟浏览器的两种方法实例分析

Python使用Selenium爬取淘宝异步加载的数据方法

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

基于python框架Scrapy爬取自己的博客内容过程详解

Python爬虫模拟登录带验证码网站

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python打印scrapy蜘蛛抓取树结构的方法

相关文章

python爬虫模拟浏览器的两种方法实例分析

Python使用Selenium爬取淘宝异步加载的数据方法

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

基于python框架Scrapy爬取自己的博客内容过程详解

Python爬虫模拟登录带验证码网站

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号