从Spark写入DynamoDB

8
我正在尝试使用Spark从Amazon S3中获取文件(以DataFrame或RDD的形式),进行一些简单的转换,然后将文件发送到DynamoDB表。阅读了一些其他论坛帖子之后,我了解到读/写DynamoDB需要使用hadoopRDD,这与Spark中的RDD不同,并且与我检索S3文件的RDD不同。我该如何将来自S3文件的DataFrame / RDD更改为hadoopRDD,以便我可以将其发送回去?我正在使用Scala并在Spark-shell中测试所有内容。提前感谢!

嗨@Willks,你是否已经找到将rdd转换为Spark-scala中的hadoopRDD的解决方案了? - Yogesh
1个回答

1
你可以使用由亚马逊实现的EMR DynamoDB 连接器。它实现了DynamoDBInputFormat和DynamoDBOutputFormat,允许从DynamoDB读取和写入数据。
你可以在这个博客文章中阅读更多相关内容。

嘿,你的解决方案是针对流数据的,那批处理数据怎么办呢? (我知道我可以将批处理转换为流式处理,但它会带来相关成本!) - Elm662

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接