使用BeautifulSoup爬虫程序获取百度搜索结果的标题和url示例

yipeiwu_com6年前 (2020-03-06)Python爬虫

熟悉Java的jsoup包的话，对于Python的BeautifulSoup库应该很容易上手。

复制代码代码如下:

#coding: utf-8
import sys
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup

question_word = "吃货程序员"
url = "http://www.baidu.com/s?wd=" + urllib.quote(question_word.decode(sys.stdin.encoding).encode('gbk'))
htmlpage = urllib2.urlopen(url).read()
soup = BeautifulSoup(htmlpage)
print len(soup.findAll("table", {"class": "result"}))
for result_table in soup.findAll("table", {"class": "result"}):
    a_click = result_table.find("a")
    print "-----标题----\n" + a_click.renderContents()#标题
    print "----链接----\n" + str(a_click.get("href"))#链接
    print "----描述----\n" + result_table.find("div", {"class": "c-abstract"}).renderContents()#描述
    print

返回列表

上一篇：Python字符转换

下一篇：PHP生成静态页面详解

相关文章

python编程实现12306的一个小爬虫实例

python编程实现12306的一个小爬虫实例

本文思路主要来源于实验楼的教程，但是一些具体的一些细节是我自己发现的，比如哪里获得站点对应的3位英文编号，怎么获得这个查询的url 本文用到的库主要有requests(获取url的内容)...

Python爬虫_城市公交、地铁站点和线路数据采集实例

Python爬虫_城市公交、地铁站点和线路数据采集实例

城市公交、地铁数据反映了城市的公共交通，研究该数据可以挖掘城市的交通结构、路网规划、公交选址等。但是，这类数据往往掌握在特定部门中，很难获取。互联网地图上有大量的信息，包含公交、地铁等数...

Python爬虫 urllib2的使用方法详解

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。 urllib2是Python2.x自带...

python爬虫面试宝典(常见问题)

是否了解线程的同步和异步？线程同步：多个线程同时访问同一资源，等待资源访问结束，浪费时间，效率低线程异步：在访问资源时在空闲等待时同时访问其他资源，实现多线程机制是否...

Python 爬虫之Beautiful Soup模块使用指南

爬取网页的流程一般如下：选着要爬的网址（url）使用 python 登录上这个网址（urlopen、requests 等）读取网页信息（read() 出来）将读...