我正在寻找有关处理非结构化文本的参考资料(教程、书籍、学术文献),以类似于 Google 日历快速添加按钮的方式进行。
我知道这可能属于 NLP 类别,但我只对从“Levi 牛仔裤尺码 32 A0b293”这样的文本转换为“品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293”感兴趣。
我想象它将是词汇分析和机器学习技术的某种组合。
我不太关心语言,但如果必须选择,我更喜欢 Python、Matlab 或 C++ 的参考资料。
谢谢
我正在寻找有关处理非结构化文本的参考资料(教程、书籍、学术文献),以类似于 Google 日历快速添加按钮的方式进行。
我知道这可能属于 NLP 类别,但我只对从“Levi 牛仔裤尺码 32 A0b293”这样的文本转换为“品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293”感兴趣。
我想象它将是词汇分析和机器学习技术的某种组合。
我不太关心语言,但如果必须选择,我更喜欢 Python、Matlab 或 C++ 的参考资料。
谢谢
经过一些研究,我发现这个问题通常被称为信息提取,并收集了一些论文存储在Mendeley Collection中。
http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/
正如 Tai Weiss 所指出的那样,Python 的 NLTK 是一个很好的起点,而本书的 this 章节则专门讨论了信息提取。
如果您只是处理类似您提到的例子,最好使用一些手动基于规则的方法,它是100%可预测的,并且可以覆盖生产中可能遇到的90%的情况..
您可以枚举所有可能的品牌和类别列表,并检测输入字符串中哪个是哪个,因为这两个列表通常几乎没有交集..
其他两个可以很容易地使用正则表达式检测和提取。(1-3位数字始终是尺寸等)
您的问题域似乎不足以证明需要更重型的方法,例如统计学习。