python BeautifulSoup设置页面编码的方法

yipeiwu_com5年前Python基础

在用BeautifulSoup进行抓取页面的时候,会各种各样的编码错误。
可以通过在beautifulsoup中指定字符编码,解决问题。

复制代码 代码如下:

import urllib2 
from BeautifulSoup import BeautifulSoup 
 
page = urllib2.urlopen('http://www.163.com'); 
soup = BeautifulSoup(page,from_encoding="gb2312") 
 
print soup.originalEncoding
print soup.prettify() 

红色部分表示需要注意的地方。在BeautifulSoup构造器中传入fromEncoding参数即可解决乱码问题,当然具体参数值是什么就要看你获取页面的编码是什么

相关文章

用pandas中的DataFrame时选取行或列的方法

如下所示: import numpy as np import pandas as pd from pandas import Sereis, DataFrame ser = Ser...

Python Xml文件添加字节属性的方法

实例如下所示: from xml.etree.cElementTree import ElementTree,Element import xlrd import re def re...

Python根据服务获取端口号的方法

根据服务获取端口号 首先需要下载一个psutil库 然后根据服务名找到PID 找到PID之后,通过pid获取端口号 # -*- encoding=utf8 -*- import ps...

python+selenium 点击单选框-radio的实现方法

例子:以百度文库中选择文档的类型为例 问题一:遍历点击所有文档类型的单选框 # coding=utf-8 from selenium import webdriver from t...

python实现扫描ip地址的小程序

python实现扫描ip地址的小程序,具体代码如下所示: import os,time import sys start_Time=int(time.time()) ip_True...