非结构化文本转换为结构化数据

Question

非结构化文本转换为结构化数据

pythonnlpstructured-data

8

我正在寻找有关处理非结构化文本的参考资料（教程、书籍、学术文献），以类似于 Google 日历快速添加按钮的方式进行。

我知道这可能属于 NLP 类别，但我只对从“Levi 牛仔裤尺码 32 A0b293”这样的文本转换为“品牌：Levi，尺码：32，类别：牛仔裤，代码：A0b293”感兴趣。

我想象它将是词汇分析和机器学习技术的某种组合。

我不太关心语言，但如果必须选择，我更喜欢 Python、Matlab 或 C++ 的参考资料。

谢谢

- zenna

你的领域有多受限制？Google日历快速添加只解析日期和时间（而且并不总是很好）。Google地图搜索框只处理位置。这样做的难度取决于你的领域有多窄。（一个产品目录？） - tcarobruce

限制只处理像示例中的衣服。 - zenna

4个回答

1

可能可以看一下Toby Segaran的《集体智慧》。我记得其中有一章讲解了这方面的基础知识。

- leancz

目前为止，这是一本关于集体智慧的最佳书籍之一。 - jvc

1

经过一些研究，我发现这个问题通常被称为信息提取，并收集了一些论文存储在Mendeley Collection中。

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

正如 Tai Weiss 所指出的那样，Python 的 NLTK 是一个很好的起点，而本书的 this 章节则专门讨论了信息提取。

- zenna

这个链接似乎已经失效了。 - Ivo Flipse

0

如果您只是处理类似您提到的例子，最好使用一些手动基于规则的方法，它是100％可预测的，并且可以覆盖生产中可能遇到的90％的情况..

您可以枚举所有可能的品牌和类别列表，并检测输入字符串中哪个是哪个，因为这两个列表通常几乎没有交集..

其他两个可以很容易地使用正则表达式检测和提取。(1-3位数字始终是尺寸等)

您的问题域似乎不足以证明需要更重型的方法，例如统计学习。

- Aditya Mukherji

同意，我怀疑谷歌日历使用基于规则的系统（类似正则表达式）来进行解析。当从更不确定的文本中提取信息时，机器学习更有用。但是，如果您的领域相当明确且输入字符串有限，则可以使用规则。 - Thien

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tal Weiss · Accepted Answer

您需要提供更多关于文本来源（网络？用户输入？）、领域（仅限服装吗？）、潜在格式和词汇方面的信息...。最坏的情况下，您需要开始学习自然语言处理（NLP）。一个非常好的免费书籍是NLTK的文档：http://www.nltk.org/book。它也是Python的很好的介绍，其软件是免费的（用于各种用途）。请注意：NLP很难。它并不总是有效的。有时候并不好玩。现代技术还远未达到您想象的水平。

假设更好的情况（您的文本是半结构化的）- 一个很好的免费工具是pyparsing。有一本书，大量的例子和结果代码非常吸引人。

希望这可以帮助您...