spark dataframe 将一列展开,把该列所有值都变成新列的方法

yipeiwu_com6年前Python基础

The original dataframe

spark dataframe 将一列展开,把该列所有值都变成新列

需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列

实现:

val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0)

并且统计了对应的countGeoPerHour的和,如果有些行没有这个新列对应的数据,将用null填充

The new dataframe

spark dataframe 将一列展开,把该列所有值都变成新列

以上这篇spark dataframe 将一列展开,把该列所有值都变成新列的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

使用selenium模拟登录解决滑块验证问题的实现

使用selenium模拟登录解决滑块验证问题的实现

本次主要是使用selenium模拟登录网页端的TX新闻,本来最开始是模拟请求的,但是某一天突然发现,部分账号需要经过滑块验证才能正常登录,如果还是模拟请求,需要的参数太多了,找的心累。不...

python 将日期戳(五位数时间)转换为标准时间

python 将日期戳(五位数时间)转换为标准时间

5位数日期戳 读取 .mat 文件处理里面数据时,发现里面的日期数据全部都是 “5位数” 数字,很不解; 后来查到可以在excel中通过设置单元格调回标准日期格式,如下: 选中日期戳,...

Pandas库之DataFrame使用的学习笔记

Pandas库之DataFrame使用的学习笔记

1 简介 DataFrame是Python中Pandas库中的一种数据结构,它类似excel,是一种二维表。 或许说它可能有点像matlab的矩阵,但是matlab的矩阵只能放数值型值(...

python读取文件名并改名字的实例

第一版,能实现,但最后发现文件的顺序改变了: import os def reename(): nm=1 pathh="/home/huangyaya/file/imag...

python3使用GUI统计代码量

本文实例为大家分享了python3使用GUI统计代码量的具体代码,供大家参考,具体内容如下 # coding=utf-8 ''' 选择一个路径 遍历路径下的每一个文件,统计代码量 字...