我想解析一个HTML页面并从中提取有意义的文本。 有人知道一些好的算法来做这件事吗? 我在Rails上开发我的应用程序,但我认为Ruby在这方面有点慢,所以如果存在一些好的C库来处理这个问题,那就更合适了。
谢谢!
注:请不要推荐任何Java相关内容
更新: 我找到了这个链接:link text 遗憾的是,它是用Python编写的。
谢谢!
注:请不要推荐任何Java相关内容
更新: 我找到了这个链接:link text 遗憾的是,它是用Python编写的。
Lynx 能够做到这一点。如果您想查看它,这是开源的。
你应该从文本中删除所有尖括号部分,然后折叠空格。
理论上,在其他情况下不应该有<
和>
。页面中到处都是<
和>
代替它们。
折叠空格:将所有TAB、换行符等转换为空格,然后将每个空格序列替换为单个空格。
更新:在找到<body>
标签后开始。