假设我已经下载了HTML代码,并且可以解析它。如果该网站没有meta-description标签,我如何获取该网站的“最佳”描述?
很难想出一个百分之百有效的规则,但我的建议是从第一个 <h1>
标签(或者 <h2>
、<h3>
等等 - 找到最高的那个)开始寻找,然后可以使用该标签后面的文本作为描述。只要网站语义化标记正确,这应该会给你一个好的描述(我猜你也可以使用 <h1>
本身的内容,但那更像是“标题”)。
有趣的是,例如 Google 使用页面内容的关键字特定提取来显示描述,而不是静态描述。不确定这是否适用于您的情况。