如何确定数据框的大小?
现在我根据以下方法估算数据框的实际大小:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
速度太慢了,我正在寻找更好的方法。
如何确定数据框的大小?
现在我根据以下方法估算数据框的实际大小:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
速度太慢了,我正在寻找更好的方法。
我目前正在使用以下方法,但不确定这是否是最好的方式:
df.persist(StorageLevel.Memory)
df.count()
在spark-web的UI界面中,在Storage选项卡下,您可以查看以MB为单位显示的大小,然后我执行unpersist操作以清除内存:
df.unpersist()
Tamas Szuromi的精彩文章:如何在Pyspark中估算RDD或DataFrame的实际大小
from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_java_object_rdd(rdd):
""" Return a JavaRDD of Object by unpickling
It will convert each Python object into Java object by Pyrolite, whenever the
RDD is serialized in batch or not.
"""
rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)
JavaObj = _to_java_object_rdd(df.rdd)
nbytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)