python BeautifulSoup设置页面编码的方法

yipeiwu_com6年前Python基础

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。

复制代码 代码如下:

import urllib2 
from BeautifulSoup import BeautifulSoup 
 
page = urllib2.urlopen('http://www.163.com'); 
soup = BeautifulSoup(page,from_encoding="gb2312") 
 
print soup.originalEncoding
print soup.prettify() 

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么

相关文章

python实现在遍历列表时,直接对dict元素增加字段的方法

example: for item in warehouse_list: warehouse_id = item['warehouse_id'] warehous...

浅谈numpy中linspace的用法 (等差数列创建函数)

浅谈numpy中linspace的用法 (等差数列创建函数)

linspace 函数 是创建等差数列的函数, 最好是在 Matlab 语言中见到这个函数的,近期在学习Python 中的 Numpy, 发现也有这个函数,以下给出自己在学习过程中的一些...

在Python中操作字典之setdefault()方法的使用

 setdefault()方法类似于get()方法,但会设置字典[键]=默认情况下,如果键不是已经在字典中。 方法 以下是setdefault()方法的语法: dict.s...

教你用 Python 实现微信跳一跳(Mac+iOS版)

教你用 Python 实现微信跳一跳(Mac+iOS版)

这几天看网上好多微信跳一跳破解了,不过都是安卓的,无奈苹果不是开源也没办法。这个教程是 Mac + iOS , 要下xcode 要配置环境小白估计是没戏了,有iOS 开发经验的可以看看...

Python3 chardet模块查看编码格式的例子

Python3 chardet模块查看编码格式的例子

如下所示: 需要注意的是,如果遇到GBK2312等编码的,在decode和encode时,一律使用GBK进行编码或者解码,这是因为GBK是其他GBK编码的超集,向下兼容所有的GBK编码...