如何智能解析网页搜索结果返回的数据?
举个例子,假设我想创建一个网络服务,通过解析多个图书供应商网站的搜索结果来查找在线书籍。我可以获取页面的原始HTML数据,并进行一些正则表达式操作,使数据适用于我的网络服务,但如果任何一个网站更改了页面的格式,我的代码就会出现错误!
RSS确实是一个很好的选择,但许多网站没有基于XML/JSON的搜索。
是否有任何工具包可以帮助自动传播页面上的信息?一个疯狂的想法是使用模糊AI模块识别搜索结果页面上的模式,并相应地解析结果...
如何智能解析网页搜索结果返回的数据?
举个例子,假设我想创建一个网络服务,通过解析多个图书供应商网站的搜索结果来查找在线书籍。我可以获取页面的原始HTML数据,并进行一些正则表达式操作,使数据适用于我的网络服务,但如果任何一个网站更改了页面的格式,我的代码就会出现错误!
RSS确实是一个很好的选择,但许多网站没有基于XML/JSON的搜索。
是否有任何工具包可以帮助自动传播页面上的信息?一个疯狂的想法是使用模糊AI模块识别搜索结果页面上的模式,并相应地解析结果...
有一个非常有趣的在线服务,可以解析网站 https://loadsiteinmysql.site。该服务将网站拆分为标签,并将它们加载到MySQL表中。这使您能够使用MySQL语法解析网站。