我一直在研究如何编写一个应用程序,从几乎任何HTML网页中获取主要文章内容的最佳方法。我有一个使用libxml2解析XML的C程序,但我发现Alchemy API似乎可以做到这一点。
然而,它只有在线API,我希望保持应用程序内部,并且不依赖于任何外部调用。
那么,有人有什么建议吗?我希望有一个离线替代方案,可以像Alchemy API一样做到这一点(付费/非付费)。
我的备选方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将用于包括新闻部分或博客在内的网站。
然而,它只有在线API,我希望保持应用程序内部,并且不依赖于任何外部调用。
那么,有人有什么建议吗?我希望有一个离线替代方案,可以像Alchemy API一样做到这一点(付费/非付费)。
我的备选方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将用于包括新闻部分或博客在内的网站。