我正在开发一个项目,需要爬取数千个网站以提取文本数据,最终用例是自然语言处理。
编辑*由于我要爬取数十万个网站,所以我不能为每个网站编写特定的爬虫代码,这意味着我无法搜索特定元素ID,我正在寻找的解决方案是通用的。*
我知道有一些解决方案,例如beautiful soup中的.get_text()函数。但是这种方法的问题在于它获取了网站上的所有文本,其中许多与该特定页面上的主题无关。大多数情况下,一个网页将专门用于单个主题,但在侧边栏、顶部和底部可能会有其他主题、促销或其他内容的链接或文本。
使用.get_text()函数会一次返回网站页面上的所有文本。问题在于它将所有相关部分与不相关部分组合在一起。是否有另一个类似于.get_text()的函数,可以返回所有文本,但作为列表,并且每个列表对象都是文本的特定部分,这样就可以知道新主题从哪里开始和结束了。
此外,是否有一种方法可以识别网页上的主体文本?
编辑*由于我要爬取数十万个网站,所以我不能为每个网站编写特定的爬虫代码,这意味着我无法搜索特定元素ID,我正在寻找的解决方案是通用的。*
我知道有一些解决方案,例如beautiful soup中的.get_text()函数。但是这种方法的问题在于它获取了网站上的所有文本,其中许多与该特定页面上的主题无关。大多数情况下,一个网页将专门用于单个主题,但在侧边栏、顶部和底部可能会有其他主题、促销或其他内容的链接或文本。
使用.get_text()函数会一次返回网站页面上的所有文本。问题在于它将所有相关部分与不相关部分组合在一起。是否有另一个类似于.get_text()的函数,可以返回所有文本,但作为列表,并且每个列表对象都是文本的特定部分,这样就可以知道新主题从哪里开始和结束了。
此外,是否有一种方法可以识别网页上的主体文本?
find_all
吗?它允许按标签和属性搜索元素,然后调用text
。 - sushanth