yipeiwu_com6年前
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,...
yipeiwu_com6年前
1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不...
yipeiwu_com6年前
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。 为什么要使用Cookie呢? Cookie,指某些网站为了辨别用户身份、进行sessio...
yipeiwu_com6年前
1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则...
yipeiwu_com6年前
1. Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: ...
yipeiwu_com6年前
1、GET方式: # -*- coding: utf-8 -*- #!/usr/bin/python # filename: GETPOST_test.p...
yipeiwu_com6年前
Python关于mySQL的连接插件众多,Bottle下也有人专门开发的插件:bottle-mysql具体使用方法见官方,总共感觉其用法限制太多,其使用起来不方便,最适合的当然是,myS...
yipeiwu_com6年前
由于工作需要在一大堆日志里面提取相应的一些固定字符,如果单纯靠手工取提取,数据量大,劳心劳力,于是自然而然想到了用Python做一个对应的提取工具,代替手工提取的繁杂,涉及中文字符,正则...
yipeiwu_com6年前
代码如下: # -*- coding: utf-8 -*- #!/usr/bin/python # filename: todo.py # codedtime: 2014-8-28...
yipeiwu_com6年前
所用拓展模块 xlrd: Python语言中,读取Excel的扩展工具。可以实现指定表单、指定单元格的读取。...