使用自然语言处理技术解析网站

Question

3

我对通过爬取网站进行数据挖掘很感兴趣，但我一直找不到关于实现这个过程的大量文档。我非常热衷于编写一组基本规则来定义如何解析页面，然后在它犯错时进行训练。

比如说，我想从餐厅网站中解析出菜单。我想创建一个工具，使我能够编写一组规则，展示菜单项和价格通常的位置。然后，我可以运行这个工具，并告诉它哪些菜单项它解析正确，哪些是错误的。该工具将从这些更正中“学习”，下次我运行它时，将得到更好的结果。

我稍微了解了一下NLTK工具包，让我想知道解决这个问题的最佳方法是否是使用像NLTK这样的NLP工具。有没有人能指导我找到相关书籍和（理想情况下）可帮助我入门的库？NLP是否是正确的方向？谢谢！

- Kevin Eder

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Fred Foo · Accepted Answer

“我非常热衷于撰写一套基础规则，定义如何解析页面的方法。”

“‘解析页面’具体指什么？解析页面中的句子？进行结构化信息提取？”

“然后这个工具会从这些更正中‘学习’，下一次运行时，我会得到更好的结果。”

“这是主动学习问题，相当高级。您需要一个机器学习工具包；哪一个取决于您想要做什么：制作解析树还是提取显著信息。我相信NLTK有一些随机解析器支持。”