python分块读取大数据,避免内存不足的方法

yipeiwu_com6年前Python基础

如下所示:

def read_data(file_name):
 '''
 file_name:文件地址
 '''
 inputfile = open(file_name, 'rb') #可打开含有中文的地址
 data = pd.read_csv(inputfile, iterator=True)
 loop = True
 chunkSize = 1000 #一千行一块
 chunks = []
 while loop:
  try:
   chunk = dcs.get_chunk(chunkSize)
   chunks.append(chunk)
  except StopIteration:
   loop = False
   print("Iteration is stopped.")
 data = pd.concat(chunks, ignore_index=True)
 #print(train.head())
 return data

以上这篇python分块读取大数据,避免内存不足的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

解决pycharm每次新建项目都要重新安装一些第三方库的问题

解决pycharm每次新建项目都要重新安装一些第三方库的问题

目前有三个解决办法,也是亲测有用的: 第一个方法: 因为之前有通过pycharm的project interpreter里的+号添加过一些库,但添加的库只是指定的项目用的,如果想要用,就...

python中正则表达式 re.findall 用法

Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正...

在Pandas中给多层索引降级的方法

# 背景介绍 通常我们不会在Pandas中主动设置多层索引,但是如果一个字段做多个不同的聚合运算, 比如sum, max这样形成的Column Level是有层次的,这样阅读非常方便,但...

对Python中列表和数组的赋值,浅拷贝和深拷贝的实例讲解

对Python中列表和数组的赋值,浅拷贝和深拷贝的实例讲解 列表赋值: >>> a = [1, 2, 3] >>> b = a >>&...

python3的print()函数的用法图文讲解

python3的print()函数的用法图文讲解

Python 3 print 函数 基础代码 1、print语法格式 print()函数具有丰富的功能,详细语法格式如下: print(value, ..., sep=' ', end=...