用户识别算法

6
假设您有一个大的IRC chan日志,并且想要找出哪个用户正在使用多个帐户。您输入用户连接到服务器的时间和某种文本分析(词频等),并希望输出两个用户“匹配”的可能性。
使用ANN可以实现吗?有更好的算法来完成这个任务吗?
PS:使用IP地址不是可接受的解决方案 :)
2个回答

2
这个问题被称为“作者识别”(有时,在特定领域中称为“抄袭检测”)。可以使用各种统计算法来完成,其中神经网络并不是最容易的方法。
请查看Cavnar&Trenkle算法以进行文本分类。它可能成为此任务的有用基准算法。各种语言的实现都可以在网上找到。您可能希望将其转换为聚类算法而不是分类器。

2
使用神经网络的问题在于,你需要一个强大的训练数据集--也就是说,你需要有很多人使用多个帐户的示例,而你已经知道他们正在这样做。此外,如果你试图识别的人曾经玩过角色扮演游戏,他们可能会使自己看起来非常不同,如果他们想的话。
因此,如果人们表现得像自己一样,并且你有一个相当好的训练数据集,那么你就有机会了。你应该从法医语言学所使用的方法开始。
但我怀疑你最终可能会做的是识别那些彼此相似的人。对于交友网站来说可能很好,但对于其他大多数事情来说可能并不那么酷。(例如,我认为这将是一种非常糟糕的方式,试图找到匿名成员的其他身份。)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接