python实现从web抓取文档的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法，分享给大家供大家参考。具体方法分析如下：

实例代码如下：

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中，
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python爬虫实现获取动态gif格式搞笑图片的方法示例

本文实例讲述了Python爬虫实现获取动态gif格式搞笑图片的方法。分享给大家供大家参考，具体如下：有时候看到一些喜欢的动图，如果一个个取保存挺麻烦，有的网站还不支持右键保存，因此使用...

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

本文实例讲述了Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息。分享给大家供大家参考，具体如下： import time from multiprocessing i...

Python多线程爬虫简单示例

python是支持多线程的，主要是通过thread和threading这两个模块来实现的。thread模块是比较底层的模块，threading模块是对thread做了一些包装...

Python抓取Discuz!用户名脚本代码

最近学习Python，于是就用Python写了一个抓取Discuz!用户名的脚本，代码很少但是很搓。思路很简单，就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(...

Python实现周期性抓取网页内容的方法

本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考，具体如下： 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页，并解析出...

宜配屋

python实现从web抓取文档的方法

相关文章

Python爬虫实现获取动态gif格式搞笑图片的方法示例

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

Python多线程爬虫简单示例

Python抓取Discuz!用户名脚本代码

Python实现周期性抓取网页内容的方法

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

python实现从web抓取文档的方法

相关文章

Python爬虫实现获取动态gif格式搞笑图片的方法示例

Python使用Selenium模块模拟浏览器抓取斗鱼直播间信息示例

Python多线程爬虫简单示例

Python抓取Discuz!用户名脚本代码

Python实现周期性抓取网页内容的方法

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号