我是一名有用的助手,可以为您翻译文本。
我有一个大型的字符串ID数据集,可以在我的Spark集群中的单个节点上放入内存。问题在于它占用了单个节点的大部分内存。
这些ID大约有30个字符长。例如:
我希望写入文件一个ID对列表,例如:
我有一个大型的字符串ID数据集,可以在我的Spark集群中的单个节点上放入内存。问题在于它占用了单个节点的大部分内存。
这些ID大约有30个字符长。例如:
ids
O2LWk4MAbcrOCWo3IVM0GInelSXfcG
HbDckDXCye20kwu0gfeGpLGWnJ2yif
o43xSMBUJLOKDxkYEQbAEWk4aPQHkm
我希望写入文件一个ID对列表,例如:
id1,id2
O2LWk4MAbcrOCWo3IVM0GInelSXfcG,HbDckDXCye20kwu0gfeGpLGWnJ2yif
O2LWk4MAbcrOCWo3IVM0GInelSXfcG,o43xSMBUJLOKDxkYEQbAEWk4aPQHkm
HbDckDXCye20kwu0gfeGpLGWnJ2yif,O2LWk4MAbcrOCWo3IVM0GInelSXfcG
# etc...
所以我需要对数据集进行自身的交叉连接。我希望在使用由 10 个节点构成的 PySpark 集群时完成此操作,但需要具有内存效率。