Python使用urllib2模块抓取HTML页面资源的实例分享

yipeiwu_com5年前 (2020-03-06)Python爬虫

先把要抓取的网络地址列在单独的list文件中

//www.jb51.net/article/83440.html
//www.jb51.net/article/83437.html
//www.jb51.net/article/83430.html
//www.jb51.net/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

本文实例讲述了Python实现爬取百度贴吧帖子所有楼层图片的爬虫。分享给大家供大家参考，具体如下：下载百度贴吧帖子图片，好好看 python2.7版本： #coding=utf-...

python数据抓取分析的示例代码（python + mongodb）

本文介绍了Python数据抓取分析，分享给大家，具体如下：编程模块：requests,lxml，pymongo，time，BeautifulSoup 首先获取所有产品的分类网址：...

python爬虫解决验证码的思路及示例

如果直接从生成验证码的页面把验证码下载到本地后识别，再构造表单数据发送的话，会有一个验证码同步的问题，即请求了两次验证码，而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决...

Python爬取十篇新闻统计TF-IDF

统计十篇新闻TF-IDF 统计TF-IDF词频，每篇文章的 top10 的高频词存储为 json 文件 TF-IDF TF-IDF（term frequency–inverse docu...

python爬虫_微信公众号推送信息爬取的实例

问题描述利用搜狗的微信搜索抓取指定公众号的最新一条推送，并保存相应的网页至本地。注意点搜狗微信获取的地址为临时链接，具有时效性。公众号为动态网页(JavaScript渲染)，使用...

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python数据抓取分析的示例代码（python + mongodb）

python爬虫解决验证码的思路及示例

Python爬取十篇新闻统计TF-IDF

python爬虫_微信公众号推送信息爬取的实例

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

Python使用urllib2模块抓取HTML页面资源的实例分享

相关文章

Python实现爬取百度贴吧帖子所有楼层图片的爬虫示例

python数据抓取分析的示例代码（python + mongodb）

python爬虫解决验证码的思路及示例

Python爬取十篇新闻统计TF-IDF

python爬虫_微信公众号推送信息爬取的实例

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号