从Spark写入DynamoDB

Question

从Spark写入DynamoDB

scalaamazon-s3apache-sparkamazon-dynamodb

8

我正在尝试使用Spark从Amazon S3中获取文件（以DataFrame或RDD的形式），进行一些简单的转换，然后将文件发送到DynamoDB表。阅读了一些其他论坛帖子之后，我了解到读/写DynamoDB需要使用hadoopRDD，这与Spark中的RDD不同，并且与我检索S3文件的RDD不同。我该如何将来自S3文件的DataFrame / RDD更改为hadoopRDD，以便我可以将其发送回去？我正在使用Scala并在Spark-shell中测试所有内容。提前感谢！

- Willks

嗨@Willks，你是否已经找到将rdd转换为Spark-scala中的hadoopRDD的解决方案了？ - Yogesh

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Ivan Mushketyk · Accepted Answer

你可以使用由亚马逊实现的EMR DynamoDB 连接器。它实现了DynamoDBInputFormat和DynamoDBOutputFormat，允许从DynamoDB读取和写入数据。

你可以在这个博客文章中阅读更多相关内容。