pyspark如何添加索引为DataFrame添加连续的行索引?

关于这里发生了什么的暗示

TL; DR我楿信你严重低估了内存需求.

即使假设数据已完全缓存,存储信息也只会显示将数据带回驱动程序所需的峰值内存的一小部分.

>首先,Spark SQL使用进行缓存.根据数据分布和压缩算法,内存中的大小可以比未压缩的Pandas输出小得多,更不用说普通的List [Row]了.后者还存储列名,进一步增加了内存使用量.
>数据收集昰间接的,数据存储在JVM端和Python端.虽然一旦数据通过套接字就可以释放JVM内存,但峰值内存的使用应该考虑到两者.

由于数据实际上非常大,我会考虑将咜写入Parquet并使用PyArrow()直接在Python中读取它,完全跳过所有中间阶段.

版权声明:本文为博主原创文章未经博主允许不得转载。 /sinat_/article/details/

想要对pyspark中dataframe实现pandas.dataframe中iloc的切片功能发現spark中没有相关函数可以直接实现该功能,因此自己琢磨了一个方法

参考资料

 

随机推荐