python BeautifulSoup设置页面编码的方法

yipeiwu_com6年前Python基础

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。

复制代码 代码如下:

import urllib2 
from BeautifulSoup import BeautifulSoup 
 
page = urllib2.urlopen('http://www.163.com'); 
soup = BeautifulSoup(page,from_encoding="gb2312") 
 
print soup.originalEncoding
print soup.prettify() 

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么

相关文章

python 读取dicom文件,生成info.txt和raw文件的方法

目标:利用python读取dicom文件,并进行处理生成info.txt和raw文件 实现:通过pydicom读取dicom文件 代码: import numpy import py...

Python中使用asyncio 封装文件读写

前言 和网络 IO 一样,文件读写同样是一个费事的操作。 默认情况下,Python 使用的是系统的阻塞读写。这意味着在 asyncio 中如果调用了 f = file('xx'...

Django单元测试工具test client使用详解

The test client test client是一个python类,来模拟一个简单的“哑”浏览器,允许你来测试你的view函数.你可以使用test client完成下列事情: 1...

Python partial函数原理及用法解析

这篇文章主要介绍了Python partial函数原理及用法解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 介绍 partial...

django中media媒体路径设置的步骤

django中media媒体路径设置的步骤

1、创建一个app02, 并在settings.py里面设置 2、在settings.py里面设置媒体文件保存的路径 from django.contrib import admi...