非结构化文本转换为结构化数据

8

我正在寻找有关处理非结构化文本的参考资料(教程、书籍、学术文献),以类似于 Google 日历快速添加按钮的方式进行。

我知道这可能属于 NLP 类别,但我只对从“Levi 牛仔裤尺码 32 A0b293”这样的文本转换为“品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293”感兴趣。

我想象它将是词汇分析和机器学习技术的某种组合。

我不太关心语言,但如果必须选择,我更喜欢 Python、Matlab 或 C++ 的参考资料。

谢谢


你的领域有多受限制?Google日历快速添加只解析日期和时间(而且并不总是很好)。Google地图搜索框只处理位置。这样做的难度取决于你的领域有多窄。(一个产品目录?) - tcarobruce
限制只处理像示例中的衣服。 - zenna
4个回答

7
您需要提供更多关于文本来源(网络?用户输入?)、领域(仅限服装吗?)、潜在格式和词汇方面的信息...。最坏的情况下,您需要开始学习自然语言处理(NLP)。一个非常好的免费书籍是NLTK的文档:http://www.nltk.org/book。它也是Python的很好的介绍,其软件是免费的(用于各种用途)。请注意:NLP很难。它并不总是有效的。有时候并不好玩。现代技术还远未达到您想象的水平。
假设更好的情况(您的文本是半结构化的)- 一个很好的免费工具是pyparsing。有一本书,大量的例子和结果代码非常吸引人。
希望这可以帮助您...

1
可能可以看一下Toby Segaran的《集体智慧》。我记得其中有一章讲解了这方面的基础知识。

目前为止,这是一本关于集体智慧的最佳书籍之一。 - jvc

1

这个链接似乎已经失效了。 - Ivo Flipse

0

如果您只是处理类似您提到的例子,最好使用一些手动基于规则的方法,它是100%可预测的,并且可以覆盖生产中可能遇到的90%的情况..

您可以枚举所有可能的品牌和类别列表,并检测输入字符串中哪个是哪个,因为这两个列表通常几乎没有交集..

其他两个可以很容易地使用正则表达式检测和提取。(1-3位数字始终是尺寸等)

您的问题域似乎不足以证明需要更重型的方法,例如统计学习。


同意,我怀疑谷歌日历使用基于规则的系统(类似正则表达式)来进行解析。当从更不确定的文本中提取信息时,机器学习更有用。但是,如果您的领域相当明确且输入字符串有限,则可以使用规则。 - Thien

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接