使用自然语言处理技术解析网站

3
我对通过爬取网站进行数据挖掘很感兴趣,但我一直找不到关于实现这个过程的大量文档。我非常热衷于编写一组基本规则来定义如何解析页面,然后在它犯错时进行训练。
比如说,我想从餐厅网站中解析出菜单。我想创建一个工具,使我能够编写一组规则,展示菜单项和价格通常的位置。然后,我可以运行这个工具,并告诉它哪些菜单项它解析正确,哪些是错误的。该工具将从这些更正中“学习”,下次我运行它时,将得到更好的结果。
我稍微了解了一下NLTK工具包,让我想知道解决这个问题的最佳方法是否是使用像NLTK这样的NLP工具。有没有人能指导我找到相关书籍和(理想情况下)可帮助我入门的库?NLP是否是正确的方向?谢谢!
1个回答

2
“我非常热衷于撰写一套基础规则,定义如何解析页面的方法。”
“‘解析页面’具体指什么?解析页面中的句子?进行结构化信息提取?”
“然后这个工具会从这些更正中‘学习’,下一次运行时,我会得到更好的结果。”
“这是主动学习问题,相当高级。您需要一个机器学习工具包;哪一个取决于您想要做什么:制作解析树还是提取显著信息。我相信NLTK有一些随机解析器支持。”

感谢您的回复。我确实想要提取结构化/半结构化信息。您提供的主动学习链接正是我正在寻找的建议类型。我知道在这个领域有很多需要学习的东西...我注意到在这个问题空间中有一些Python库(例如MLPy)。 - Kevin Eder
@Kevination:我也可以推荐scikit-learn,我是其中的一个维护者。我必须承认我不熟悉MLPy,所以无法对其质量发表评论。你真正需要的是一个具有序列和树模型的工具包,例如CRFs或结构感知器/SVMs,因此请留意这些内容。 - Fred Foo

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接