pandas中read_csv的缺失值处理方式

yipeiwu_com6年前Python基础

今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。

看pandas文档中read_csv函数中这两个参数的描述,默认会将'-1.#IND', ‘1.#QNAN', ‘1.#IND', ‘-1.#QNAN', ‘#N/A N/A','#N/A', ‘N/A', ‘NA', ‘#NA', ‘NULL', ‘NaN', ‘-NaN', ‘nan', ‘-nan', ''转换为NaN,且na_values参数还支持定义另外的应处理为缺失值的值。

值得注意的是keep_default_na参数,这个参数的作用是决定要不要保留默认应该转换的缺失值列表,将这个参数设为False之后同时不定义na_values参数,就可以在读取文件时不将任何值转换为缺失值NaN。

例:

import pandas as pd
df = pd.read_csv('train.csv', keep_default_na=False)

以上这篇pandas中read_csv的缺失值处理方式就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python使用sorted函数对列表进行排序的方法

本文实例讲述了python使用sorted函数对列表进行排序的方法。分享给大家供大家参考。具体如下: python提供了sorted函数用于对列表进行排序,并且可以按照正序或者倒序进行排...

Flask框架中密码的加盐哈希加密和验证功能的用法详解

密码加密简介 密码存储的主要形式: 明文存储:肉眼就可以识别,没有任何安全性。 加密存储:通过一定的变换形式,使得密码原文不易被识别。 密码加密的几类方式: 明文转码加...

Centos部署django服务nginx+uwsgi的方法

1.安装python3 yum -y install wget gcc make zlib-devel readline-devel bzip2-devel ncurses-dev...

python 划分数据集为训练集和测试集的方法

sklearn的cross_validation包中含有将数据集按照一定的比例,随机划分为训练集和测试集的函数train_test_split from sklearn.cross_...

python实现flappy bird游戏

flappy bird最近火遍大江南北,教你用python写游戏的第一课就向它开刀了。 这个课程的基础是假定你有比较不错的编程功底,对python有一点点的基础。 一、准备工作 1、用p...