python分块读取大数据,避免内存不足的方法

yipeiwu_com5年前Python基础

如下所示:

def read_data(file_name):
 '''
 file_name:文件地址
 '''
 inputfile = open(file_name, 'rb') #可打开含有中文的地址
 data = pd.read_csv(inputfile, iterator=True)
 loop = True
 chunkSize = 1000 #一千行一块
 chunks = []
 while loop:
  try:
   chunk = dcs.get_chunk(chunkSize)
   chunks.append(chunk)
  except StopIteration:
   loop = False
   print("Iteration is stopped.")
 data = pd.concat(chunks, ignore_index=True)
 #print(train.head())
 return data

以上这篇python分块读取大数据,避免内存不足的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

详解如何为eclipse安装合适版本的python插件pydev

详解如何为eclipse安装合适版本的python插件pydev

pydev是一款优秀的Eclipse插件,大多数喜欢在eclipse开发软件的程序员(也许是java程序员)在开发python软件时希望继续使用eclipse,那么pydev是非常理想的...

在Python中居然可以定义两个同名通参数的函数

在Python中居然可以定义两个同名通参数的函数

一个意外的场景,我发现Python模块中是可以定义相同的名称和参数的函数的, 虽然在eclipse中报错了,但是执行时没有问题的,这个是IDE的问题。 其中的含义是因为第一个函数原本由...

python实现简单图片物体标注工具

python实现简单图片物体标注工具

本文实例为大家分享了python实现简单图片物体标注工具的具体代码,供大家参考,具体内容如下 # coding: utf-8 """ 物体检测标注小工具 基本思路: 对要标注的图...

pytorch中tensor.expand()和tensor.expand_as()函数详解

tensor.expend()函数 >>> import torch >>> a=torch.tensor([[2],[3],[4]]) >...

python魔法方法-自定义序列详解

python魔法方法-自定义序列详解

自定义序列的相关魔法方法允许我们自己创建的类拥有序列的特性,让其使用起来就像 python 的内置序列(dict,tuple,list,string等)。 如果要实现这个功能,就要遵循...