29得票4回答
将 .npy(numpy 文件)输入到 TensorFlow 数据管道中

TensorFlow似乎缺少用于“.npy”文件的读取器。 如何将我的数据文件读入新的tensorflow.data.Dataset流水线中? 我的数据不适合存储在内存中。 每个对象都保存在单独的“.npy”文件中。 每个文件包含两个不同的ndarray作为特征和一种标量作为它们的标签。

22得票3回答
如何访问Airflow SimpleHttpOperator GET请求的响应

我正在学习Airflow,有一个简单的问题。下面是我的DAG,名为dog_retriever: import airflow from airflow import DAG from airflow.operators.http_operator import SimpleHttpOpera...

15得票1回答
能否编写一个Luigi包装任务来容忍失败的子任务?

我有一个Luigi任务,执行一些不稳定的计算。可以将其视为一种优化过程,有时无法收敛。import luigi MyOptimizer(luigi.Task): input_param: luigi.Parameter() output_filename = luigi.Pa...

12得票1回答
实现luigi动态图配置

我是luigi的新手,是在设计我们的机器学习流水线时遇到了它。虽然它不符合我的特定用例,但它有很多额外的功能,所以我决定让它适应我的项目。 基本上我正在寻找的是一种方法来持久化自定义流水线,从而使其结果可重复并更容易部署,在阅读大多数在线教程后,我尝试使用现有的luigi.cfg配置和命令行...

9得票1回答
截断 DynamoDB 或通过 Data Pipeline 重写数据

有可能通过数据管道导出DynamoDb数据,也可以将数据导入DynamoDb。导入一切正常,但是每次导入都会追加到已存在的数据中。 目前我找到的工作示例是扫描DynamoDb并逐个删除条目或通过批处理删除条目。但对于大量数据来说,这种方法不好。 还可以将表全部删除并创建新表。但使用此方法会...