python3.x提取中文的正则表达式示例代码

yipeiwu_com6年前Python基础

实例一: 读取txt文件中含有中文的字符

import re ##此处使用的编辑器是python3.x 
d="[\u4e00-\u9fa5]+" #中文匹配的符号
f=open('test.txt','rb') #这里以二进制读取,方便中文的转义 ,不设置回报错 这里的TXT文档
#文档内容:
Hello world
China
你好,你好好
This is a txt File
s2f程序员杂志一2d3程序员杂志二2d3程序员杂志三2d3程序员杂志四2d3
#此处涉及到文本的读取工作,先读取文件,再进行文档行的识别匹配
L=[]#创建一个列表进行存储即将生成的中文
for i in f: #遍历txt文档中的行
  i=i.decode('utf-8')#转意utf-8
  l=re.findall(d,i) #正则匹配中文
  L+=l #将中文放到列表中
print(L)
f.close()

***********************************************

***********************************************

实例二: 读取给定字符串的中文字符

import re ##此处使用的编辑器是python3.x 
s = "s2f程序员杂志一2d3程序员杂志二2d3程序员杂志三2d3程序员杂志四2d3".encode() #此处必须进行字符串转义
temp = s.decode('utf-8') 
pattern="[\u4e00-\u9fa5]+"#中文正则表达式
regex = re.compile(pattern) #生成正则对象 
results = regex.findall(temp) #匹配
for result in results : #迭代遍历出内容
  print (result)

总结

以上所述是小编给大家介绍的python3.x提取中文的正则表达式示例代码,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对【听图阁-专注于Python设计】网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

相关文章

为什么入门大数据选择Python而不是Java?

为什么入门大数据选择Python而不是Java?

马云说:“未来最大的资源就是数据,不参与大数据十年后一定会后悔。”毕竟出自wuli马大大之口,今年二月份我开始了学习大数据的道路,直到现在对大数据的学习脉络和方法也渐渐清晰。今天我们就来...

python opencv检测目标颜色的实例讲解

python opencv检测目标颜色的实例讲解

实例如下所示: # -*- coding:utf-8 -*- __author__ = 'kingking' __version__ = '1.0' __date__ = '14/0...

大家都说好用的Python命令行库click的使用

一、前言 在本系列前面几篇文章中,我们分别介绍了 argparse 和 docopt 的主要功能和用法。它们各具特色,都能出色地完成命令行任务。argparse 是面向过程的,需要先设...

python 读取竖线分隔符的文本方法

如下: data = pd.read_csv('20180201.txt',sep = '|',dtype = 'str') 以上代码意思是: 1,读取本工作路径下的2018020...

python模拟事件触发机制详解

本文实例为大家分享了python模拟事件触发机制的具体代码,供大家参考,具体内容如下 EventManager.py # -*- encoding: UTF-8 -*- # 系统模...