得票数最多 'apache-beam' 问题 - 第4页

关联标签

10得票1回答

在Apache Beam中从多个文件夹读取文件，并将输出映射到文件名

使用Python SDK和Dataflow Runner在Apache Beam中从多个文件夹读取文件，然后将文件内容与文件名（filecontents，filename）一起输出到BigQuery。最初的想法是为每个文件创建一个PCollection，然后将文件内容与文件名映射起来。def ...

pythongoogle-cloud-platformgoogle-cloud-dataflowapache-beam

10得票2回答

谷歌云数据流卡在了一个重复错误中:“Error syncing pod...failed to "StartContainer" for "sdk" with CrashLoopBackOff”

SDK: Apache Beam SDK for Go 0.5.0 我们的Golang作业在Google Cloud Dataflow上运行了几周，一直表现良好。我们没有更新作业本身，并且SDK版本似乎与先前相同。但是，昨晚它失败了，我不确定具体原因。它达到1小时时间限制，由于没有工作人员活...

gogoogle-cloud-dataflowapache-beam

10得票1回答

“_UnwindowedValues”类型的对象没有len()是什么意思？

我正在使用 Dataflow 0.5.5 Python。在非常简单的代码中遇到了以下错误：print(len(row_list)) row_list 是一个列表。在 DirectRunner 上，完全相同的代码、数据和管道运行得非常好，但在 DataflowRunner 上会抛出以下异常。这是...

google-cloud-dataflowapache-beam

10得票3回答

如何在Apache Beam Dataflow中将CSV转换为字典

我想要使用apache beam dataflow读取csv文件并将其写入BigQuery。为此，我需要以字典形式向BigQuery呈现数据。我该如何使用apache beam转换数据以实现此目的？我的输入csv文件有两列，我想在BigQuery中创建一个包含这两列的表格。我知道如何在Big...

pythoncsvgoogle-bigquerygoogle-cloud-dataflowapache-beam

10得票2回答

尝试使用DataflowRunner时出现ClassNotFound异常

我正在尝试使用Apache Beam 0.6.0在GCP上启动Dataflow作业。由于无法使用"mvn:execjava"启动作业，因此我正在使用shade插件编译uber jar。我包含了以下依赖项： <dependency> <groupId>org.apa...

javamavengoogle-cloud-dataflowapache-beamdataflow

9得票3回答

Google Cloud Dataflow中使用Python时，worker_machine_type标签无法正常工作。

我正在使用Google Cloud Dataflow（2.3.0）中的Python Apache Beam。当我将worker_machine_type参数指定为例如n1-highmem-2或custom-1-6656时，Dataflow运行作业，但每个工作程序总是使用标准机器类型n1-sta...

pythongoogle-cloud-dataflowapache-beam

9得票1回答

gcloud auth activate-service-account --key-file和GOOGLE_APPLICATION_CREDENTIALS有什么区别？

我正在创建一个shell脚本来处理一些工作流程的自动化，其中包括通过Apache Beam GCP访问Google Buckets。我正在使用包含我的服务帐户信息的.json文件，在什么情况下需要使用： gcloud auth activate-service-account --key-...

google-cloud-platformgoogle-cloud-storageapache-beam

9得票1回答

数据流，使用用户提供的加密密钥加载文件。

尝试使用CSEK加载GCS文件时，我遇到了数据流错误。 [ERROR] The target object is encrypted by a customer-supplied encryption key 我原本想在数据流端尝试AES解密，但是我发现如果没有传递加密密钥，我甚至无法获...

google-cloud-platformgoogle-cloud-storagegoogle-cloud-dataflowapache-beam

9得票1回答

如何将环境变量作为Python SDK中的环境变量传递给Dataflow工作器

我使用Python SDK编写自定义的Sink。我尝试将数据存储到AWS S3中。要连接S3，需要一些凭证，如密钥，但出于安全原因，将其设置为代码不是好方法。我想让环境变量作为环境变量传递到Dataflow工作程序。我该怎么做呢？

google-cloud-platformgoogle-cloud-dataflowapache-beam

9得票2回答

Docker化的Apache Beam返回"No id provided"。

我遇到了一个关于Docker化Apache Beam的问题。尝试运行容器时，我收到了"未提供ID"的消息，没有更多的信息。以下是代码和文件： Dockerfile FROM apache/beam_python3.8_sdk:latest RUN apt update RUN apt in...

dockerapacheapache-beampython-3.8