python实现从web抓取文档的方法

yipeiwu_com6年前 (2020-03-06)Python爬虫

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法，分享给大家供大家参考。具体方法分析如下：

实例代码如下：

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中，
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

python爬虫实战之最简单的网页爬虫教程

前言网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。最近对python爬虫有了强烈地兴趣...

Python爬虫实例_城市公交网络站点数据的爬取方法

爬取的站点：http://beijing.8684.cn/ （1）环境配置，直接上代码： # -*- coding: utf-8 -*- import requests ##导入r...

Python3 使用selenium插件爬取苏宁商家联系电话

Selenium简介 Selenium是一个用于测试网站的自动化测试工具，支持各种浏览器包括Chrome、Firefox、Safari等主流界面浏览器，同时也支持phantomJS无界...

python爬取内容存入Excel实例

最近老师布置了个作业，爬取豆瓣top250的电影信息。按照套路，自然是先去看看源代码了，一看，基本的信息竟然都有，心想这可省事多了。简单分析了下源代码，标记出所需信息的所在标签，ok，开...

浅析python实现scrapy定时执行爬虫

项目需要程序能够放在超算中心定时运行，于是针对scrapy写了一个定时爬虫的程序main.py ，直接放在scrapy的存储代码的目录中就能设定时间定时多次执行。最简单的方法：直接...

宜配屋

python实现从web抓取文档的方法

相关文章

python爬虫实战之最简单的网页爬虫教程

Python爬虫实例_城市公交网络站点数据的爬取方法

Python3 使用selenium插件爬取苏宁商家联系电话

python爬取内容存入Excel实例

浅析python实现scrapy定时执行爬虫

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

python实现从web抓取文档的方法

相关文章

python爬虫实战之最简单的网页爬虫教程

Python爬虫实例_城市公交网络站点数据的爬取方法

Python3 使用selenium插件爬取苏宁商家联系电话

python爬取内容存入Excel实例

浅析python实现scrapy定时执行爬虫

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号