HTML文章内容提取 - Alchemy API替代方案

7
我一直在研究如何编写一个应用程序,从几乎任何HTML网页中获取主要文章内容的最佳方法。我有一个使用libxml2解析XML的C程序,但我发现Alchemy API似乎可以做到这一点。
然而,它只有在线API,我希望保持应用程序内部,并且不依赖于任何外部调用。
那么,有人有什么建议吗?我希望有一个离线替代方案,可以像Alchemy API一样做到这一点(付费/非付费)。
我的备选方案可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容。它将用于包括新闻部分或博客在内的网站。

1
我相信您错误地标记了这个问题。 "Alchemy"标签是指Adobe Alchemy。 我猜您在谈论http://www.alchemyapi.com。 - Gunslinger47
2个回答

4

现在有几个开源工具可以完成类似的文章提取任务。 https://github.com/jiminoc/goose 是Gravity.com开源的一个工具。

它在wiki上提供了信息和源代码可供查看。有数十个单元测试显示从各种文章中提取的文本。


你知道除了Goose之外还有哪些类似的PHP替代方案吗? - masu.mo

0
AlchemyAPI还提供本地解决方案,这样您就不必在线访问。通常,我们的客户如果有特殊的安全或延迟要求,他们会使用本地解决方案。有关本地解决方案的更多信息,请单击此处:http://www.alchemyapi.com/products/on-premise/

链接现在已失效;本地解决方案已停止使用。 - Naffi

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接