python 遍历字符串(含汉字)实例详解

yipeiwu_com6年前Python基础

python 遍历字符串(含汉字)实例详解

s = "中国china"
for j in s:
  print j

首先一个,你这个'a'是什么编码?可能不是你所想的gbk

>>> a='中国'
>>> a

这样试试看,如果出来是6个字(word),说明是utf-8,如果是4个字,说明gbk。

另外,不管是utf-8还是gbk,都不能这样遍历,因为这里它会一个字一个字拿出来。虚拟机把a当成一个长度为len(a)的字符串了。

接下来是遍历问题。

Linux的shell大都默认是utf-8,所以一个中文字符是三个字,所以要三个三个地读,你可以试下:

>>> a[:3]

出来就是个”中”字

windows的command的默认是cp936,也就是gbk,一个中文字符是两个字,所以两个字两个字地读(a[:2])。

还有另一种遍历的方法,把字符串转换成unicode,这样中文英文都是一个字,就可以用你的for i in a的方法遍历了。这个的好处是中文英文字符都是一个字,而utf-8和gbk里,英文字母只占一个字。

s = u"中国china"
for j in s:
  print j

输出如下:

中
国
c
h
i
n
a

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

相关文章

基于Pycharm加载多个项目过程图解

基于Pycharm加载多个项目过程图解

这篇文章主要介绍了基于Pycharm加载多个项目过程图解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天在使用Pycharm工具练...

matplotlib实现显示伪彩色图像及色度条

matplotlib实现显示伪彩色图像及色度条

灰度图显示为伪彩色图 法一 import matplotlib.pyplot as plt img = plt.imread('C:/Users/leex/Desktop/lena...

解决Django layui {{}}冲突的问题

layui的table的自定义模板需要用到{{}},但是和Django的{{}}冲突了,layui的{{}}失效了 解决方法:从Django 1.5开始,支持{% verbatim %}...

简单了解python的内存管理机制

Python引入了一个机制:引用计数。 引用计数 python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个...

python uuid模块使用实例

uuid是一种唯一标识,在许多领域作为标识用途。python的uuid模块就是用来生成它的。 闲话不说,python提供的生成uuid的方法一共有4种,分别是: 1.从硬件地址和时间生成...