我对通过爬取网站进行数据挖掘很感兴趣,但我一直找不到关于实现这个过程的大量文档。我非常热衷于编写一组基本规则来定义如何解析页面,然后在它犯错时进行训练。
比如说,我想从餐厅网站中解析出菜单。我想创建一个工具,使我能够编写一组规则,展示菜单项和价格通常的位置。然后,我可以运行这个工具,并告诉它哪些菜单项它解析正确,哪些是错误的。该工具将从这些更正中“学习”,下次我运行它时,将得到更好的结果。
我稍微了解了一下NLTK工具包,让我想知道解决这个问题的最佳方法是否是使用像NLTK这样的NLP工具。有没有人能指导我找到相关书籍和(理想情况下)可帮助我入门的库?NLP是否是正确的方向?谢谢!
比如说,我想从餐厅网站中解析出菜单。我想创建一个工具,使我能够编写一组规则,展示菜单项和价格通常的位置。然后,我可以运行这个工具,并告诉它哪些菜单项它解析正确,哪些是错误的。该工具将从这些更正中“学习”,下次我运行它时,将得到更好的结果。
我稍微了解了一下NLTK工具包,让我想知道解决这个问题的最佳方法是否是使用像NLTK这样的NLP工具。有没有人能指导我找到相关书籍和(理想情况下)可帮助我入门的库?NLP是否是正确的方向?谢谢!