我有一个包含2500个原始文本的大语料库,希望使用scikit-learn库将它们分成测试集和训练集。在使用tf-idf表示时,如何使用scikit-learn库解决这个问题?是否可以提供分割原始文本为测试集和训练集的示例?
我有一个包含2500个原始文本的大语料库,希望使用scikit-learn库将它们分成测试集和训练集。在使用tf-idf表示时,如何使用scikit-learn库解决这个问题?是否可以提供分割原始文本为测试集和训练集的示例?
假设您的数据是字符串列表,即
data = ["....", "...", ]
你可以使用train_test_split函数,将数据集分成训练集(80%)和测试集(20%),例如:
from sklearn.model_selection import train_test_split
train, test = train_test_split(data, test_size = 0.2)
不过,在你匆忙行动之前,请先阅读这些文档。2500并不算是“大型语料库”,你可能需要进行k折交叉验证,而不是单个保留集拆分。