用Python编写,获取网站描述的最佳方法是什么?

6
假设我已经下载了HTML代码,并且可以解析它。如果该网站没有meta-description标签,我如何获取该网站的“最佳”描述?
3个回答

3
你可以从类似Readability这样的工具中获取返回的前几个句子。Safari 5使用它,所以应该没问题 :)

1

很难想出一个百分之百有效的规则,但我的建议是从第一个 <h1> 标签(或者 <h2><h3> 等等 - 找到最高的那个)开始寻找,然后可以使用该标签后面的文本作为描述。只要网站语义化标记正确,这应该会给你一个好的描述(我猜你也可以使用 <h1> 本身的内容,但那更像是“标题”)。

有趣的是,例如 Google 使用页面内容的关键字特定提取来显示描述,而不是静态描述。不确定这是否适用于您的情况。


1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接