python网络爬虫采集联想词示例

yipeiwu_com6年前Python爬虫

python爬虫_采集联想词代码

复制代码 代码如下:

#coding:utf-8
import urllib2
import urllib
import re
import time
from random import choice
#特别提示,下面这个list中的代理ip可能失效,请换上有效的代理ip
iplist  = ['27.24.158.153:81','46.209.70.74:8080','60.29.255.88:8888']

list1 = ["集团","科技"]
for item in list1:
    ip= choice(iplist)
    gjc = urllib.quote(item)
    url = "http://sug.so.360.cn/suggest/word?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word="+gjc
    headers = {
                "GET":url,
                "Host":"sug.so.360.cn",
                "Referer":"http://www.so.com/",
                "User-Agent":"sMozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.56 Safari/537.17",
                }

    proxy_support = urllib2.ProxyHandler({'http':'http://'+ip})

    opener = urllib2.build_opener(proxy_support)
    urllib2.install_opener( opener )
    req = urllib2.Request(url)

    for key in headers:
        req.add_header(key,headers[key])

    html = urllib2.urlopen(req).read()

    ss = re.findall("\"(.*?)\"",html)
    for item in ss:
        print item
    time.sleep(2)

相关文章

Python的爬虫框架scrapy用21行代码写一个爬虫

Python的爬虫框架scrapy用21行代码写一个爬虫

开发说明 开发环境:Pycharm 2017.1(目前最新) 开发框架:Scrapy 1.3.3(目前最新) 目标 爬取线报网站,并把内容保存到items.json里 页面分析...

Python3爬虫之自动查询天气并实现语音播报

Python3爬虫之自动查询天气并实现语音播报

一、写在前面 之前写过一篇用Python发送天气预报邮件的博客,但是因为要手动输入城市名称,还要打开邮箱才能知道天气情况,这也太麻烦了。于是乎,有了这一篇博客,这次我要做的就是用Pyth...

python 3利用BeautifulSoup抓取div标签的方法示例

前言 本文主要介绍的是关于python 3用BeautifulSoup抓取div标签的方法示例,分享出来供大家参考学习,下面来看看详细的介绍: 示例代码: # -*- coding:...

python高阶爬虫实战分析

关于这篇文章有几句话想说,首先给大家道歉,之前学的时候真的觉得下述的是比较厉害的东西,但是后来发现真的是基础中的基础,内容还不是很完全。再看一遍自己写的这篇文章,突然有种想自杀的冲动。e...

Python开发实例分享bt种子爬虫程序和种子解析

看到网上也有开源的代码,这不,我拿来进行了二次重写,呵呵,上代码:  #encoding: utf-8     &n...