pandas factorize实现将字符串特征转化为数字特征

yipeiwu_com6年前Python基础

将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。

原始数据的job特征值如下

都是字符串特征,无法用于训练,当然可以单独建立map硬编码处理,但是pandas已经封装好了相应的方法。

data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

以上这篇pandas factorize实现将字符串特征转化为数字特征就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

PyCharm代码回滚,恢复历史版本的解决方法

PyCharm代码回滚,恢复历史版本的解决方法

当我们修改一份代码的时候,也许会碰到修改后的代码还不如修改之前的代码能够满足自己的需求,那么这个时候我们就需要对代码进行回滚,下面我们来看一下在PyCharm里面如何操作。 首先在我们需...

基于python 二维数组及画图的实例详解

1、二维数组取值 注:不管是二维数组,还是一维数组,数组里的数据类型要一模一样,即若是数值型,全为数值型 #二维数组 import numpy as np list1=[[1.73...

python 对txt中每行内容进行批量替换的方法

python 对txt中每行内容进行批量替换的方法

如下所示: f = open('./val.txt') lines = f.readlines() #整行读取 f.close() for line in lines: rs =...

Python正则表达式教程之三:贪婪/非贪婪特性

之前已经简单介绍了Python正则表达式的基础与捕获,那么在这一篇文章里,我将总结一下正则表达式的贪婪/非贪婪特性。  贪婪 默认情况下,正则表达式将进行贪婪匹配。所谓“贪婪”...

Python3 中文文件读写方法

字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以Unicode作为中间编码,即先将其他编码的字符串解码(decode)成Unicode,再从Unico...