33得票9回答
突然出现的导入错误:无法从'requests.packages.urllib3.contrib'导入'appengine'的名称,在管道上出错。

我的管道和调度程序运行得非常顺畅,没有任何问题。午餐后,我更改了神经网络运行的时代数量,重新保存了 .yaml 文件,并将其放在名为“budgetff”的桶中。 之后,一切都停止工作了。 这里有一些错误,我完全不知道它们是如何出现的。组件内的代码甚至似乎没有开始执行。我尝试了几个不...

18得票7回答
生成数据集迭代器完成时发生错误:已取消:操作被取消。

在运行使用TensorFlow 2.0的代码的Kubeflow管道时,每个epoch结束时都会显示以下错误: W tensorflow/core/kernels/data/generator_dataset_op.cc:103] 在终止GeneratorDataset迭代器时发生错误:...

11得票1回答
Kubeflow与其他选项的比较

我正在尝试找到何时创建自己的Kubeflow MLOps平台有意义: 如果您只使用Tensorflow,是否仍然需要Kubeflow?为什么不仅使用TFX?使用Airflow可以进行编排。 如果您只使用scikit-learn,为什么要使用Kubeflow,因为它不支持GPU和分布式训练?...

10得票3回答
如何在Python中在Kubeflow容器化组件之间传递数据或文件

我正在探索使用Kubeflow部署和连接典型ML流水线的各个组件。我将docker容器作为Kubeflow组件,并且到目前为止,我无法成功地使用ContainerOp.file_outputs对象在组件之间传递结果。 根据我对该功能的理解,创建并保存到被声明为一个组件的file_output...

9得票2回答
如何在 Kubernetes 中使用 tqdm

我正在使用Kubernetes,并在集群上运行一个训练作业。 我使用TQDM作为进度条,但是与我的预期不同的是,当我检查Kubernetes Pod日志时,进度条没有显示出来。有没有人有解决这个问题的方法?

8得票2回答
microk8s出现了K8s仪表板和Kubeflow仪表板故障。

我正在使用内核版本为Ubuntu 18.04 LTS,拥有3个内核、60 GB存储和12 GB内存的虚拟机上使用microk8s。 我遵循了microk8s网站此处的说明进行安装。 $ snap install microk8s --classic --channel=1.18/stable...

8得票6回答
如何在组件内获取运行的ID?

我正在使用Kubeflow Pipelines进行一些实验,并且有兴趣检索运行ID以及与管道执行相关的一些元数据。是否可以从像ContainerOp这样的组件中获取该信息?

8得票1回答
Kubeflow流水线终止通知

我尝试添加一种逻辑,即在管道因某些错误终止时发送Slack通知。我尝试使用ExitHandler来实现这一点。但是,似乎ExitHandler不能依赖于任何操作符。你有什么好的想法吗?

7得票3回答
Kubeflow管道动态输出列表作为输入参数

我使用ParallelFor来处理一个动态列表。我希望收集循环中的所有输出,并将它们传递给另一个ContainerOp。类似下面这样做,但显然行不通,因为outputs列表是静态的。 with dsl.ParallelFor(op1.output) as item: op2 = ds...

7得票2回答
如何在Argo Workflow中转义 "{{" 和 "}}" 字符串

我希望您能翻译以下内容: 我希望运行一个 argo 工作流,在其中一个值被双括号包围。Argo 尝试解析它,但我不希望 argo 解析它。 以下是 katib studyjob 工作流清单的一部分。 workerSpec: goTemplate: rawTemplate: ...