python定向爬取淘宝商品价格

yipeiwu_com5年前Python爬虫

python爬虫学习之定向爬取淘宝商品价格,供大家参考,具体内容如下

import requests
import re

def getHTMLText(url):
  try:
    r = requests.get(url, timeout=30)
    r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_status() 来抛出异常:
    r.encoding= r.apparent_encoding
    return r.text
  except:
    return ""

def parsePage(ilt,html):
  try:
    plt = re.findall(r'\"view_price\"\:\"[\d\.]*?\"',html) #正则表达式来匹配 "view_price":"\d\."类型的字符串
    tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
#正则表达式来匹配 "raw_title":".*?"类型的字符串,.*?是任意字符的最小匹配
    for i in range(len(plt)):
      price = eval(plt[i].split(':')[1])
      title = eval(tlt[i].split(':')[1])
      ilt.append([price,title])
  except:
    print ("")


def PrintGoodsList(ilt):
  tplt = "{:4}\t{:8}\t{:16}"
  print (tplt.format("序号","价格","商品名称"))
  count = 0
  for g in ilt:
    count = count + 1
    print (tplt.format(count,g[0],g[1]))
def main():
  goods = '书包'
  depth = 2
  start_url = 'https://s.taobao.com/search?q=' + goods
  infoList=[]
  for i in range(depth):
    try:
      url = start_url + '&s=' + str(44*i)
      html= getHTMLText(url)
      parsePage(infoList,html)
    except:
      continue

  PrintGoodsList(infoList)

main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python 3实战爬虫之爬取京东图书的图片详解

Python 3实战爬虫之爬取京东图书的图片详解

前言 最近工作中遇到一个需求,需要将京东上图书的图片下载下来,假如我们想把京东商城图书类的图片类商品图片全部下载到本地,通过手工复制粘贴将是一项非常庞大的工程,此时,可以用Python网...

python中数据爬虫requests库使用方法详解

python中数据爬虫requests库使用方法详解

一、什么是Requests Requests 是Python语编写,基于urllib,采Apache2 Licensed开源协议的 HTTP 库。它urllib 更加方便,可以节约我们大...

一步步教你用python的scrapy编写一个爬虫

一步步教你用python的scrapy编写一个爬虫

介绍 本文将介绍我是如何在python爬虫里面一步一步踩坑,然后慢慢走出来的,期间碰到的所有问题我都会详细说明,让大家以后碰到这些问题时能够快速确定问题的来源,后面的代码只是贴出了核心...

python3使用urllib模块制作网络爬虫

urllib urllib模块是python3的URL处理包 其中: 1、urllib.request主要是打开和阅读urls 个人平时主要用的1: 打开对应的URL:urllib.re...

Python爬取qq空间说说的实例代码

具体代码如下所示: #coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time impo...