比较两个英文字符串的相似度

5

以下是我的问题。我有两段文本,我需要确定它们是否相似。不是指字符串度量的意义,而是指含义。下面的两段文字相关,但我需要找出它们是否涵盖了“相同”的主题。任何帮助或解决此问题的方向将不胜感激。

化石燃料是由天然过程形成的燃料,例如埋藏的死去的生物的厌氧分解。这些生物及其产生的化石燃料的年龄通常为数百万年,有时超过6.5亿年。化石燃料含有高比例的碳,包括煤、石油和天然气。化石燃料范围从具有低碳:氢比率的挥发性材料(如甲烷)到液态石油和由几乎纯碳组成的非挥发性材料(例如无烟煤)。甲烷可以单独在碳氢化合物领域中发现,与油共存,或者以甲烷卡夫拉特的形式存在。普遍认为它们是通过暴露于地球地壳上数百万年的热和压力作用下已经化石化的死亡植物遗骸形成的。这个生物起源的理论最初由Georg Agricola于1556年引入,后来由18世纪的Mikhail Lomonosov引入。

其次:

化石燃料重整是一种从天然气等化石燃料中生产氢或其他有用产品的方法。这是在一个被称为重整器的加工设备中通过高温下将蒸汽与化石燃料反应来实现的。蒸汽甲烷重整器在工业中广泛用于制造氢气。还有兴趣开发基于类似技术的小型单位以生产氢气作为燃料电池的原料。目前,小规模蒸汽重整装置供应燃料电池正在进行研究和开发,通常涉及甲醇或天然气的重整,但也考虑了其他燃料,例如丙烷、汽油、汽车燃料和乙醇。

3个回答

5

这是一个很高的要求。如果我是你,我会开始阅读自然语言处理方面的内容。NLP是一个相当大的领域--我建议特别关注维基百科文本分析文章中提到的"过程"部分

我认为如果你利用信息检索, 命名实体识别, 和情感分析, 你应该可以走得更远。


3

总的来说,我认为这仍然是一个未解决的问题。自然语言处理仍然是一个新兴领域,虽然我们可以做一些事情非常出色,但要进行这种分类和归类仍然非常困难。

我不是NLP方面的专家,但您可能想查看这些讲座幻灯片,其中讨论了情感分析和作者检测。您可能会发现,您所提出的文本比较所使用的技术与上述分析所使用的技术相关,并且您可能会发现这是一个很好的起点。

希望这有所帮助!


2
您还可以了解机器学习中的潜在狄利克雷分配(LDA)模型。该模型的思想是找到每个文档(或段落)的低维表示,仅作为一些“主题”的分布。该模型使用一组文档/段落进行无监督训练。
如果您在段落集合上运行LDA,则通过查看隐藏主题向量的相似性,您可以确定给定的两个段落是否相关。
当然,基准是不使用LDA,而是使用术语频率(与tf/idf增强)来测量相似性(向量空间模型)。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接