如何处理AWS Kinesis中的重新处理场景?

7
我正在探索AWS Kinesis,以替换旧的批处理ETL处理方式,采用基于流的方法进行数据处理。
这个项目的一个关键要求是在以下情况下能够重新处理数据:
- 发现并修复了错误,并重新部署应用程序。需要从头开始重新处理数据。 - 添加新功能并需要完全或部分重新处理历史记录。
这些方案在Kafka中非常好地记录在这里:https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios
我已经看到了Kinesis中基于时间戳的ShardIterator,我认为可以使用Kinesis API构建类似于Kafka的重置工具,但如果已经存在这样的工具就更好了。即使没有,也很好从那些解决过类似问题的人那里学习。
所以,有人知道在Kinesis中执行此操作的任何现有资源、模式和工具吗?

嗨,Rahul,你尝试过Kinesis VCR吗?它对你有用吗?如果你有其他解决方案,请分享。-谢谢 - Srivignesh KN
1个回答

1
我遇到了一些情况,希望重新处理Kinesis处理过的记录,我使用Kinesis-VCR重新处理由Kinesis生成的记录。
Kinesis-VCR记录了Kinesis流并维护了在给定时间内由Kinesis处理的文件的元数据。
稍后,我们可以使用它来重新处理/重放任何给定时间范围内的事件。
这是相应的Github链接。

https://github.com/scopely/kinesis-vcr

如果这对您有用,请告诉我。

谢谢和问候, Srivignesh KN


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接