我在面试中被要求使用机器学习解决一个用例。我需要使用机器学习算法识别交易中的欺诈行为。我的训练数据集包括100,200个交易,其中100,000个是合法交易,200个是欺诈交易。
我不能将整个数据集用于建立模型,因为这会导致数据偏差,并且得到的模型会非常糟糕。
例如,我可以从好的交易中选择200个样本和200个欺诈交易,并使用它们作为训练数据来建立模型。但问题是,如何将这200个好的交易扩展到所有的100,000个交易记录,以便我的结果可以映射到所有类型的交易上。由于我没有遇到过这种情况,所以不知道如何处理。
请问有任何指导吗?
我不能将整个数据集用于建立模型,因为这会导致数据偏差,并且得到的模型会非常糟糕。
例如,我可以从好的交易中选择200个样本和200个欺诈交易,并使用它们作为训练数据来建立模型。但问题是,如何将这200个好的交易扩展到所有的100,000个交易记录,以便我的结果可以映射到所有类型的交易上。由于我没有遇到过这种情况,所以不知道如何处理。
请问有任何指导吗?