我想请教一些关于在将数据输入机器学习算法之前如何进行预处理的通用技巧。我正在尝试进一步了解为什么我们在预处理时做出不同的决策,如果有人能够详细介绍清理数据、删除多余数据等需要考虑的所有不同因素,那将对我非常有帮助,因为我已经在网上搜索了很多有关此类问题的规范答案或经验法则,但似乎并没有找到。
我有一个.tsv文件中的数据可供使用,链接在这里。训练集共有7,000行,测试集有3,000行。如果每100行中有无法读取的数据,应该采用哪些不同的策略来处理不良形式的数据?500行?1,000行?任何可以帮助我思考的指导方针都将非常感激。
如果您愿意,可以提供示例代码,但如果不想提供也没有关系,我只是想了解我应该做些什么!:)
谢谢
我有一个.tsv文件中的数据可供使用,链接在这里。训练集共有7,000行,测试集有3,000行。如果每100行中有无法读取的数据,应该采用哪些不同的策略来处理不良形式的数据?500行?1,000行?任何可以帮助我思考的指导方针都将非常感激。
如果您愿意,可以提供示例代码,但如果不想提供也没有关系,我只是想了解我应该做些什么!:)
谢谢