为SEO生成HTML

10
我找到了这篇关于在服务器端生成用于爬虫的HTML的文章:http://docs.google.com/Doc?id=dcsq25m_04k4cmgfd。你们认为使用这种技术根据用户代理提供不同内容的方式怎么样?
对于如何在GWT上进行SEO的最佳方式,您有哪些参考文章或建议可以分享?我曾阅读过《Pro GWT2.0技术》,但看起来有点过度设计。
3个回答

4
我们在开发joobili.com时也遇到过这个问题,说实话并不容易,但我认为我们现在的解决方案不错。
我们不会向搜索引擎提供不同的内容,因为这被称为欺骗,而且谷歌不喜欢它。
对于每个页面,我们都有一个HTML版本(老实说,这并不是什么大不了的事情,你根本不需要处理设计,只需在页面上放置一些内容和链接)。
您可以使用标签显示此内容。如果您在页面上以对象形式提供初始内容,则还可以加快速度。为此,我们使用了稍微修改过的kiyaa框架对象序列化程序的版本。
我们还使用了gwt 2.0-s代码拆分机制,这使得主页的加载速度更快。
当然,您必须确保为搜索引擎(没有JavaScript的浏览器)提供的内容与为用户提供的内容相符。
最好- Istvan - inepex.com

你的意思是创建带有链接的静态HTML页面吗? - cometta
3
不使用隐匿技术是个好主意,这样做可以避免被从搜索引擎的主要索引中清除。这是一个不好的结果。 - Peter Rowell
抱歉,我没有开启通知,所以没有看到问题。链接对于用户和机器人来说是相同的。实际上,当您导航到另一页时,页面会刷新。但是它非常快,因为每个JavaScript都被缓存了。如果您仍然感兴趣并且有任何具体问题,请随时问我。现在我已经开启了通知:)并查看禁用JavaScript的joobili.com,这将澄清事情 - Sobvan

2
主要问题在于搜索引擎不喜欢在爬行时与在浏览器“亲自访问”时使用不同的输出,除非您在应用程序中提供一个链接到生成的HTML页面的标签。此外,使用GWTTestcase渲染HTML的性能问题可能会灾难性地影响网站,因为它并没有针对性能进行调整(而是用于测试和调试)。事实上,网络爬虫比用户更频繁地访问网站,在短时间内可能会使CPU达到最大负荷。目前,这个问题还没有令人满意的解决方案。

我同意这个观点。除了GWTTestCase之外,你知道其他生成HTML的方法吗?如果我使用HttpClient来解析本地JavaScript会怎样? - cometta
嗯...我也不确定。我认为尽管遵循DRY原则是好的,但有时候复制一些表现逻辑并创建一个纯HTML视图可能是必要的。 - Chii

1
我们公司的网站和所有发布的内容都是基于GWT的,并且完全被Google索引。我们使用AJAXCrawling的方法。这是我迄今为止看到的最好的方法。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接