python 采集中文乱码问题的完美解决方法

yipeiwu_com6年前Python基础

近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录

1. 在正常情况下..可以用

import chardet

thischarset = chardet.detect(strs)["encoding"]

来获取该文件或页面的编码方式

或直接抓取页面的charset = xxxx 来获取

2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

decode的第二个参数表示遇到非法字符时所采取的方式

该参数默认为抛出异常.

以上就是小编为大家带来的python 采集中文乱码问题的完美解决方法的全部内容了,希望对大家有所帮助,多多支持【听图阁-专注于Python设计】~

相关文章

Python文件和流(实例讲解)

1.文件写入 #打开文件,路径不对会报错 f = open(r"C:\Users\jm\Desktop\pyfile.txt","w") f.write("Hello,world!\...

Python中使用摄像头实现简单的延时摄影技术

Python中使用摄像头实现简单的延时摄影技术

延时摄影(英语:Time-lapse photography)是以一种较低的帧率拍 下图像或者视频,然后用正常或者较快的速率播放画面的摄影技术。在一段延时摄影视频中,物体或者景物缓慢变化...

Python实现的批量修改文件后缀名操作示例

Python实现的批量修改文件后缀名操作示例

本文实例讲述了Python实现的批量修改文件后缀名操作。分享给大家供大家参考,具体如下: windows和linux下都支持该程序  以下程序可以进行批量修改文件后缀名:...

Python面向对象程序设计之类的定义与继承简单示例

本文实例讲述了Python面向对象程序设计之类的定义与继承。分享给大家供大家参考,具体如下: 定义类: class A: def __init__(self, name):...

Python中实现switch功能实例解析

前言 今天在学习python的过程中,发现python没有switch这个语法。于是就想在python中如何才能实现这个功能呢? 正文 本文中我们对switch的使用模拟为正常的数据库的...