如何将给定的数据集划分为训练集和测试集,并保留它们的正确标签。
可以使用sklearn库实现相同的功能:
from sklearn.cross_validation import train_test_split
train, test = train_test_split(df, test_size = 0.2)
这里的 df 是原始数据集,例如:字符串列表。
问题在于,它没有将目标/标签与数据集一起使用。因此,我们无法跟踪哪个标签属于哪个数据点...
有没有办法将数据点和其标签绑定起来,然后将数据集拆分为训练集和测试集?
df
是什么? - Ami Tavory