AWS Sagemaker BlazingText 多个训练文件

3

想知道在Amazon Sagemaker BlazingText中是否可以使用多个文件作为数据集。

我正在尝试在文本分类模式下使用它。

看起来这是不可能的,至少在文件模式下不行,但不知道管道模式是否支持。我不想把所有的训练数据放在一个文件中,因为如果是由EMR集群生成的,我需要事后合并它,这很繁琐。

谢谢!

1个回答

1
您说得没错,文件模式不支持多个文件(https://docs.aws.amazon.com/sagemaker/latest/dg/blazingtext.html)。
理论上,管道模式可以工作,但有一些注意事项:
{"source":"linux ready for prime time ", "label":1}
{"source":"bowled by the slower one ", "label":2}

然后,您需要将_AttributeNames_参数传递给createTrainingJob SageMaker API(所有内容在上面的链接中都有解释)。

  • 使用增强清单(Augmented Manifest),目前只支持一个标签。

为了使用Pipe模式,您需要修改EMR作业以生成增强清单格式,并且每个句子只能使用一个标签。

在这个阶段,将EMR作业生成的文件连接成一个文件似乎是最好的选择。


感谢您的回复--这就是最终的解决方法——将其连接到一个文件中,只是不确定这个方法是否可扩展。我希望你获得了赏金! - Big Endian

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接