我正在尝试使用Spark从Amazon S3中获取文件(以DataFrame或RDD的形式),进行一些简单的转换,然后将文件发送到DynamoDB表。阅读了一些其他论坛帖子之后,我了解到读/写DynamoDB需要使用hadoopRDD,这与Spark中的RDD不同,并且与我检索S3文件的RDD不同。我该如何将来自S3文件的DataFrame / RDD更改为hadoopRDD,以便我可以将其发送回去?我正在使用Scala并在Spark-shell中测试所有内容。提前感谢!
你可以使用由亚马逊实现的EMR DynamoDB 连接器。它实现了DynamoDBInputFormat和DynamoDBOutputFormat,允许从DynamoDB读取和写入数据。你可以在这个博客文章中阅读更多相关内容。