用Python编写，获取网站描述的最佳方法是什么？

Question

6

假设我已经下载了HTML代码，并且可以解析它。如果该网站没有meta-description标签，我如何获取该网站的“最佳”描述？

- TIMEX

3个回答

1

很难想出一个百分之百有效的规则，但我的建议是从第一个 <h1> 标签（或者 <h2>、<h3> 等等 - 找到最高的那个）开始寻找，然后可以使用该标签后面的文本作为描述。只要网站语义化标记正确，这应该会给你一个好的描述（我猜你也可以使用 <h1> 本身的内容，但那更像是“标题”）。

有趣的是，例如 Google 使用页面内容的关键字特定提取来显示描述，而不是静态描述。不确定这是否适用于您的情况。

- Dean Harding

1

为了跟进上面关于“可读性”的建议（受到InstaPaper网站的启发），他们发布了JavaScript代码：http://code.google.com/p/arc90labs-readability/。更有甚者，一些人采用该代码并将其移植到Python上：http://github.com/gfxmonk/python-readability。让我们欣喜吧！

- loevborg

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- alex · Accepted Answer

你可以从类似Readability这样的工具中获取返回的前几个句子。Safari 5使用它，所以应该没问题 :)