我正在寻找一个与Arc90的readability.js大致相当的Python包/模块/函数等。
http://lab.arc90.com/experiments/readability
http://lab.arc90.com/experiments/readability/js/readability.js
我希望你能翻译一下这段内容:so that I can give it some input.html and the result is cleaned up version of that html page's "main text". 我需要的是清理后的HTML页面"主要文本",这样我就可以在服务器端使用它(不像JS版本只能在浏览器端运行)。
有什么想法吗?
PS:我尝试过Rhino + env.js,这种组合确实可行,但性能无法接受,清理大部分HTML内容需要几分钟时间 :( (仍然找不到为什么会有如此大的性能差异)。