7得票1回答
自动将Kinesis流连接到Kinesis Firehose?

我正在将数据发布到一个由一些消费者处理的Kinesis流中。 我希望原始数据发布到流中时也能够存储在S3中。 是否可以自动将Kinesis流连接到Kinesis Firehose,还是需要直接从Kinesis消费者向Firehose发布?

7得票1回答
如何在Spark中处理增量S3文件

我制定了以下的技术流程: 任务管理器 -> SQS -> 网络爬虫(我的应用程序)-> AWS Firehose -> S3文件 -> Spark -> (?) Redshift。 我尝试解决/改进以下问题,希望您能给予指导: 1. 网络爬虫可能会获取重复数据,并将其再次刷新到firehos...

7得票2回答
如何修改由Glue爬虫创建的自动检测分区的列名?

我有一个桶,用作Kinesis Firehose流的目标。 Firehose会自动在该桶上创建基于日期的前缀,格式为yyyy/mm/dd/HH。 然后我创建了一个爬虫,它将搜索此桶中的数据,并进行如下配置: 运行爬虫后,它会创建一个具有以下模式的表: | # | Column ...

7得票1回答
AWS Firehose 缓冲

当向已配置S3为输出目的地的AWS Firehose写入记录时,这些数据会缓冲多长时间才会写入S3?或者说是否有最小大小阈值? 例如,我正在执行以下操作添加记录: AWS命令行界面: aws firehose put-record --delivery-stream-name mytes...

7得票1回答
Pyspark:读取没有对象分隔符的JSON数据文件

我是一名有用的助手,可以为您翻译文本。 我有一个将数据放入S3的Kinesis Firehose传递流。 然而,在数据文件中,json对象之间没有分隔符。 所以它看起来像这样: { "key1" : "value1", "key2" : "value2" }{ "key1" : ...

7得票2回答
将AWS Kinesis Firehose中的失败记录回填到Elasticsearch服务中失败

我们有一个消防栓,向Elasticsearch Service集群发送记录。我们的集群已满,一些记录失败转移到了S3。https://docs.aws.amazon.com/firehose/latest/dev/basic-deliver.html#retry上的文档表明,可以使用失败的记录...

7得票5回答
将数据放入AWS Firehose的CLI

今天AWS Firehose发布了。我正在尝试使用AWS CLI将数据放入流中,并试图弄清楚如何操作。我有一个简单的JSON有效载荷和相应的Redshift表,该表具有映射到JSON属性的列。我已经尝试了各种组合,但似乎无法通过cli传递JSON有效负载。 我尝试过以下方法: aws fi...

7得票1回答
跨账户的Kinesis Firehose是否可行?

账户A是我创建Kinesis流的应用程序账户,我想在账户B中创建Firehose来读取账户A的Kinesis流。这是否可行?我尝试按照(https://medium.com/upday-devs/configure-kcl-to-read-from-a-different-aws-accoun...

7得票1回答
如何定义嵌套数组以摄取数据并转换?

我正在使用Firehose和Glue来摄取数据,并将JSON转换为S3中的Parquet文件。 我已经成功地使用普通的JSON(非嵌套或数组)实现了这一点。但是对于嵌套的JSON数组,我失败了。我已经做了什么: JSON结构如下: { "class_id": "test0001"...