我正在使用pandas从CSV文件中导入大量数据,读取后我会将其格式化为仅包含数字数据。这将返回一个列表内嵌列表的格式。每个列表大约包含14万个数据位。
在此列表中,我希望创建
numericalData[][]
。在此列表中,我希望创建
测试数据
和训练数据
。对于我的测试数据,我希望有30%的读取数据numericalData
,因此我使用以下代码;
testingAmount = len(numericalData0[0]) * trainingDataPercentage / 100
非常有效。然后,我使用numpy从导入的numericalData
中选择每列数据的数量;
testingData.append(np.random.choice(numericalData[x], testingAmount) )
然后,这会在一个循环中返回具有38列的样本,其中每列大约有49k个数据元素,这些数据是从我导入的 numericalData
中随机选择的。
问题是,我的 trainingData
需要保存其余70%的数据,但我不确定如何做到这一点。我尝试比较 testingData
中的每个元素,如果两个元素不相等,则将其添加到 trainingData
中。这导致了一个错误,并且没有起作用。接下来,我尝试从导入的数据中删除所选的 testingData
,然后将该新列保存到 trainingData
中,但这也没有起作用。
我只是过去一周才开始使用Python,所以现在有点迷失在尝试什么上。
pd.read_csv('kddcup-10-nonDuplicate.txt', sep='\t', header=None)
。 - Johnathan Brownsklearn
或其他库来完成。请参见这里。 - juanpa.arrivillaga