python抓取网页内容示例分享

yipeiwu_com6年前 (2020-03-06)Python爬虫

import socket
def open_tcp_socket(remotehost,servicename):
    s=socket.socket(socket.AF_INET,socket.SOCK_STREAM)
    portnumber=socket.getservbyname(servicename,'tcp')
    s.connect((remotehost,portnumber))
    return s
mysocket=open_tcp_socket('www.taobao.com','http')
mysocket.send('hello')
while(1):
    data=mysocket.recv(1024)
    if(data):
        print data.decode('gbk').encode('utf-8')#对于gbk编码网页必须这样转化一下
    else:
        break
mysocket.close()

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

Python实现爬虫从网络上下载文档的实例代码

最近在学习Python，自然接触到了爬虫，写了一个小型爬虫软件，从初始Url解析网页，使用正则获取待爬取链接，使用beautifulsoup解析获取文本，使用自己写的输出器可以将文本输出...

Phantomjs抓取渲染JS后的网页（Python代码）

最近需要爬取某网站，无奈页面都是JS渲染后生成的，普通的爬虫框架搞不定，于是想到用Phantomjs搭一个代理。 Python调用Phantomjs貌似没有现成的第三方库（如果有，请告知...

python定向爬虫校园论坛帖子信息

引言写这个小爬虫主要是为了爬校园论坛上的实习信息，主要采用了Requests库源码 URLs.py 主要功能是根据一个初始url（包含page页面参数）来获得page页面从当前页面数...

Python探索之爬取电商售卖信息代码示例

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。下面有一个示例代码，分享给大家： #...

零基础写python爬虫之HTTP异常处理

先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也...

宜配屋

python抓取网页内容示例分享

相关文章

Python实现爬虫从网络上下载文档的实例代码

Phantomjs抓取渲染JS后的网页（Python代码）

python定向爬虫校园论坛帖子信息

Python探索之爬取电商售卖信息代码示例

零基础写python爬虫之HTTP异常处理

© YiPeiWu.com 【宜配屋】粤ICP备17031333号

Powered By Z-BlogPHP. Theme by TOYEAN.

宜配屋

python抓取网页内容示例分享

相关文章

Python实现爬虫从网络上下载文档的实例代码

Phantomjs抓取渲染JS后的网页（Python代码）

python定向爬虫校园论坛帖子信息

Python探索之爬取电商售卖信息代码示例

零基础写python爬虫之HTTP异常处理

© YiPeiWu.com 【宜配屋】 粤ICP备17031333号 var _hmt = _hmt || [];(function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?8aa60ae04b767b2af31903508928acc0"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s);})();

Powered By Z-BlogPHP. Theme by TOYEAN.

© YiPeiWu.com 【宜配屋】粤ICP备17031333号