用于电子邮件垃圾邮件检测的神经网络输入

Question

用于电子邮件垃圾邮件检测的神经网络输入

c#machine-learningneural-networkclassificationemail-spam

3

我正在尝试实现用于电子邮件垃圾邮件检测的神经网络。我有解决XOR问题的神经网络，我想为我的目的编辑该网络并使用ba。它在这里可以访问：https://github.com/trentsartain/Neural-Network 我下载了一些以文本格式提供的包含垃圾邮件和正常邮件的数据库，以训练网络。因此，我有一些训练集。但我的问题是：

那个神经网络的输入应该是什么?

感谢每一个评论! :)

- user2095405

3

有大量关于这方面的先前研究...在Google学术上搜索有关垃圾邮件检测中各种有用信号的论文，然后从文本中提取这些信号并将其输入到您的ANN中。 - Johannes Rudolph

2个回答

1

我遇到了一些针对电子邮件和短信的垃圾邮件过滤器，其中最有效的是基于“朴素贝叶斯垃圾邮件过滤”技术的。因此，我建议首先考虑这种技术。

作为一个开始的想法：

您可以使用类似神经网络的加权词语技术，如下所示。

第一步：基于神经网络创建一个“字典”，该字典回答给定单词是垃圾邮件的概率。

第二步：计算整个消息成为垃圾邮件的概率。您可能会有几个输入，例如第一个输入获取具有0-10％垃圾邮件概率的单词数，第二个输入获取具有10-20％概率的单词数，依此类推，直到最后一个输入获取具有90-100％概率的单词数，此类神经网络的输出可以设置为消息被视为垃圾邮件的概率。

- Mikhailov Valentin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Olivier De Meulder · Accepted Answer

简短回答：输入将是您的垃圾邮件。

更详细的回答，从非常基本的层面上来说：假设您的电子邮件没有奇怪的字符。想象一个向量，其中向量的每个元素代表出现在这些电子邮件中的一个单词。
对于每封电子邮件，您创建一个这样的向量，并为每个元素计算该单词在电子邮件中出现的频率。
所有这些向量，每个电子邮件一个，将是您的输入。

这是基本的想法。然后，您可以通过应用词干提取，使用tf-idf而不是纯频率，引入其他输入元素（例如从电子邮件头部）来进行改进。