如何使用Scikit交叉验证模块将数据（原始文本）分割成测试/训练集？

Question

10

我有一个包含2500个原始文本的大语料库，希望使用scikit-learn库将它们分成测试集和训练集。在使用tf-idf表示时，如何使用scikit-learn库解决这个问题？是否可以提供分割原始文本为测试集和训练集的示例？

- anon

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- KT. · Accepted Answer

假设您的数据是字符串列表，即

data = ["....", "...", ]

你可以使用train_test_split函数，将数据集分成训练集（80%）和测试集（20%），例如：

from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)

不过，在你匆忙行动之前，请先阅读这些文档。2500并不算是“大型语料库”，你可能需要进行k折交叉验证，而不是单个保留集拆分。