用于电子邮件垃圾邮件检测的神经网络输入

3
我正在尝试实现用于电子邮件垃圾邮件检测的神经网络。我有解决XOR问题的神经网络,我想为我的目的编辑该网络并使用ba。它在这里可以访问:https://github.com/trentsartain/Neural-Network 我下载了一些以文本格式提供的包含垃圾邮件和正常邮件的数据库,以训练网络。因此,我有一些训练集。但我的问题是:
那个神经网络的输入应该是什么?
感谢每一个评论! :)

3
有大量关于这方面的先前研究...在Google学术上搜索有关垃圾邮件检测中各种有用信号的论文,然后从文本中提取这些信号并将其输入到您的ANN中。 - Johannes Rudolph
2个回答

2
简短回答:输入将是您的垃圾邮件。
更详细的回答,从非常基本的层面上来说: 假设您的电子邮件没有奇怪的字符。 想象一个向量,其中向量的每个元素代表出现在这些电子邮件中的一个单词。
对于每封电子邮件,您创建一个这样的向量,并为每个元素计算该单词在电子邮件中出现的频率。
所有这些向量,每个电子邮件一个,将是您的输入。
这是基本的想法。然后,您可以通过应用词干提取,使用tf-idf而不是纯频率,引入其他输入元素(例如从电子邮件头部)来进行改进。

1
我遇到了一些针对电子邮件和短信的垃圾邮件过滤器,其中最有效的是基于“朴素贝叶斯垃圾邮件过滤”技术的。因此,我建议首先考虑这种技术。
作为一个开始的想法:
您可以使用类似神经网络的加权词语技术,如下所示。
第一步:基于神经网络创建一个“字典”,该字典回答给定单词是垃圾邮件的概率。
第二步:计算整个消息成为垃圾邮件的概率。您可能会有几个输入,例如第一个输入获取具有0-10%垃圾邮件概率的单词数,第二个输入获取具有10-20%概率的单词数,依此类推,直到最后一个输入获取具有90-100%概率的单词数,此类神经网络的输出可以设置为消息被视为垃圾邮件的概率。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接