重构现在著名的17岁少年基于马尔科夫链的信息检索算法“Apodora”。

7
在我们无所事事的时候,一个17岁的加拿大男孩似乎发现了一种信息检索算法,该算法具有以下特点:
a) 与当前广泛使用的向量空间模型相比,精度提高了两倍。
b) 在识别相似单词方面“相当准确”。
c) 使微搜索更加准确。
这里有一个很好的interview
不幸的是,我找不到任何已经发布的论文,但是,从我几年前参加过的图形模型和机器学习课程中记得的片段中,我认为我们应该能够从他的提交摘要以及他在采访中说的话中重建它。
从采访中可以得知:
某些搜索会找到出现在类似上下文中的单词。这非常好,但这只是遵循第一层关系。我的算法试图进一步跟随连接。接近的连接被认为更有价值。在理论上,它可以无限地跟随连接。
而摘要则将其放入了上下文中:
介绍了一种名为“Apodora”的新型信息检索算法,使用类马尔可夫链矩阵的限制能力来确定文档模型,并对单词语义进行上下文统计推断。该系统已经实现并与向量空间模型进行比较。特别是在查询很短的情况下,新算法给出的结果精度大约是两倍,并且具有微搜索的有趣应用。对于了解马尔可夫链矩阵或信息检索的人来说,他们可能会立即意识到他正在做什么。

1
嗯,我想知道这与奇异值分解相似度有多高,或者是其他什么?也许这是一系列连续的共现矩阵? - nflacco
1
也许你可以从高层次上理解他在做什么,但我怀疑你不可能确切地知道他在做什么。他可能正在查看比一阶更高阶的共现,并通过某种马尔可夫过程对其进行建模。但是有很多方法可以做到这一点。 - Chris A.
1
很难给出确切的答案。评论中“理论上,它可以无限地跟踪连接”这句话让我想到了一个术语共现矩阵的特征分解(例如潜在语义分析)。 - Stompchicken
4
许多算法可以有相同的抽象描述。没有论文,我们只有炒作。 - Iterator
1
除了算法之外,我很难相信在没有更好的数据/改进的特征,特别是某种语义模型的情况下能够获得如此改进的性能。机器学习的好坏取决于您输入的数据;例如,谷歌翻译只是多种语言转录的整个语料库 :( - nflacco
确切地说,我也不太相信...这就是为什么我想尝试重构它,以便我可以自己测试它...如果它有效的话,我可以在我的其他研究中重复使用它。 - silverasm
1个回答

3

从使用“上下文”等词汇以及引入二阶级别的统计依赖性,我猜测他正在进行与LDA-HMM方法相关的工作,该方法在论文中进行了概述:Griffiths,T.,Steyvers,M.,Blei,D.和Tenenbaum,J。(2005)。集成主题和语法。神经信息处理系统的进展。由于模型平均,搜索的分辨率存在一些固有限制。不过,17岁就能做出这样的事情让我羡慕不已,我希望他至少能独立地、逐步地取得更好的成果。即使是相同主题的不同方向也非常酷。


1
我认为你说得非常正确 - 他似乎确实将每个文档建模为由某个马尔可夫过程生成的单词序列。感谢您提供这个准确的参考! - silverasm

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接