数据挖掘中的“相似度”

9
在数据挖掘领域中,是否有一个名为“相似性”的特定子学科?如果是,它处理什么内容?任何示例、链接和参考资料都将有所帮助。
此外,作为这个领域的新手,我想知道社区对数据挖掘和人工智能之间关系的看法。它们是同义词吗?一个是另一个的子集吗?
感谢您分享您的知识。

相关:https://dev59.com/oE7Sa4cB1Zd3GeqP2lRw - Betamoo
5个回答

9
在数据挖掘领域中,是否有一个名为“相似性”的特定子学科?
是的。数据挖掘和机器学习领域中存在一个特定的子领域,称为度量学习,旨在学习数据实例之间更好的距离度量。
您是否了解以下任何概念? 欧几里得距离 马氏距离 皮尔逊相关系数 余弦相似度这里 核函数
了解这些后,您就会知道什么是“相似性”。
我想知道社区对数据挖掘和人工智能的关系有何看法。

很难区分什么是数据挖掘,什么是人工智能。如果你刚进入这个领域,请不要讨论这个问题。当你学习了10种数据挖掘算法并阅读了一些人工智能书籍后,你就会知道它们之间的差异和关系。


2

“相似性”适当的定义(提取哪些特征以及之后的处理方式)几乎就是聚类的定义,而聚类是数据挖掘的一个相当广泛的子领域。

如果您采用标准的愤世嫉俗的AI定义——我们无法解决的问题集合(确实,我们无法准确说明以开始解决的问题),那么当您寻找相关性的空间超出算法能够处理的范围时,数据挖掘就会变得模糊不清。


2

强调“相似性”概念的重要性。

数据挖掘(人工智能、机器学习、建模等)旨在将某些函数最大化或最小化。选择最佳优化/学习/挖掘算法和错误的函数会得到完全无用的结果。请注意,我们使用“值”而不是“值S”。这是因为没有(据我所知)算法(计算或其他)能够优化多个值。然而,在我们的宇宙中,复杂的优化比单维度的优化更频繁(我们想变得富有、年轻且健康)。这就是为什么存在大量相似性和其他评分函数的原因。也正因如此,其中没有一个是“正确的”。


1

相似性是数据挖掘任务中常用的概念,如聚类、分类等。根据您拥有的数据类型,您可以使用不同的相似度度量方法,例如文本文档的余弦相似度、欧几里得距离等。


0

在数据挖掘中有许多相似度测量方法。对于文本挖掘,常用的余弦相似度和Jaccard相似度来寻找文本之间的相似性。

如果需要参考,可以查看Raghavan和Amnnings的信息检索书籍。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接