Python使用urllib2模块抓取HTML页面资源的实例分享

yipeiwu_com6年前 (2020-03-06)Python爬虫

先把要抓取的网络地址列在单独的list文件中

//www.jb51.net/article/83440.html
//www.jb51.net/article/83437.html
//www.jb51.net/article/83430.html
//www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

搞定这套Python爬虫面试题(面试会so easy)

先来一份完整的爬虫工程师面试考点: 一、 Python 基本功 1、简述Python 的特点和优点 Python 是一门开源的解释性语言，相比 Java C++ 等语言，Python...

利用python爬取散文网的文章实例教程

本文主要给大家介绍的是关于python爬取散文网文章的相关内容，分享出来供大家参考学习，下面一起来看看详细的介绍：效果图如下：配置python 2.7 bs4 requ...

玩转python爬虫之URLError异常处理

本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网...

Python HTML解析模块HTMLParser用法分析【爬虫工具】

本文实例讲述了Python HTML解析模块HTMLParser用法。分享给大家供大家参考，具体如下：简介先简略介绍一下。实际上，HTMLParser是python用来解析HTML的...

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

本文实例讲述了Python3爬虫学习之爬虫利器Beautiful Soup用法。分享给大家供大家参考，具体如下：爬虫利器Beautiful Soup 前面一篇说到通过urllib.re...

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

搞定这套Python爬虫面试题(面试会so easy)

利用python爬取散文网的文章实例教程

玩转python爬虫之URLError异常处理

Python HTML解析模块HTMLParser用法分析【爬虫工具】

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

搞定这套Python爬虫面试题(面试会so easy)

利用python爬取散文网的文章实例教程

玩转python爬虫之URLError异常处理

Python HTML解析模块HTMLParser用法分析【爬虫工具】

Python3爬虫学习之爬虫利器Beautiful Soup用法分析

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号