使用Apache Spark进行Amazon S3的多部分上传

6
如何使Apache Spark在将数据保存到Amazon S3时使用多部分上传。Spark使用RDD.saveAs...File方法写入数据。当目标以s3n://开头时,Spark会自动使用JetS3T进行上传,但对于大于5G的文件,这种方法会失败。需要使用多部分上传将大文件上传到S3,这对于较小的文件也有益处。JetS3T支持多部分上传,可以使用MultipartUtils实现,但是Spark默认配置下不使用此功能。是否有一种方法可以让它使用此功能?
2个回答

2
这是s3n的一个限制,您可以使用新的s3a协议来访问S3中的文件。s3a基于aws-adk库,支持包括多部分上传在内的许多功能。更多细节请参见此链接

0

s3n 似乎正在淘汰道路上。

根据他们的文档所述:

Amazon EMR 使用带有 URI 方案 s3n 的 S3 Native FileSystem。虽然它仍然可用,但我们建议您使用 s3 URI 方案以获得最佳性能、安全性和可靠性。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接