Pandas数据框样本的补集

6
import pandas as pd

df = pd.read_csv("train.csv")

sample = df.sample(10)

sample.to_csv("train_subset.csv")

我希望从给定的csv文件(train.csv)中随机抽取10行,并将其存储为新的csv文件train_subset.csv。上面的代码实现了这一点。现在我还想将所有未被抽样的行存储到一个名为train_remaining.csv的文件中。

我该如何实现?如何找到哪些行已经被抽样?


请查看SciKit Learn train_test_split - Scott Boston
2个回答

2
您可以使用 df.index.difference(sample.index),其中 sample.index 是所选样本的索引。
然后使用它来选择补充数据框: complementary = df.iloc[df.index.difference(sample.index)]

1

你能否详细地展示一下如何使用这个?我被文档搞糊涂了。@Greg - cherrycoke2000
导入 pandas 作为 pd 从 sklearn.model_selection 导入 train_test_splitdf = pd.read_csv("train.csv")X = df['features_used_to_predict'] y = df['thing_being_predicted']X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)如果需要,您可以将测试信息连接起来以获得数据子集。 - Greg

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接