我找到了这篇关于在服务器端生成用于爬虫的HTML的文章:http://docs.google.com/Doc?id=dcsq25m_04k4cmgfd。你们认为使用这种技术根据用户代理提供不同内容的方式怎么样?对于如何在GWT上进行SEO的最佳方式,您有哪些参考文章或建议可以分享?我曾阅读过《Pro GWT2.0技术》,但看起来有点过度设计。
我们在开发joobili.com时也遇到过这个问题,说实话并不容易,但我认为我们现在的解决方案不错。我们不会向搜索引擎提供不同的内容,因为这被称为欺骗,而且谷歌不喜欢它。对于每个页面,我们都有一个HTML版本(老实说,这并不是什么大不了的事情,你根本不需要处理设计,只需在页面上放置一些内容和链接)。您可以使用标签显示此内容。如果您在页面上以对象形式提供初始内容,则还可以加快速度。为此,我们使用了稍微修改过的kiyaa框架对象序列化程序的版本。我们还使用了gwt 2.0-s代码拆分机制,这使得主页的加载速度更快。当然,您必须确保为搜索引擎(没有JavaScript的浏览器)提供的内容与为用户提供的内容相符。最好- Istvan - inepex.com
主要问题在于搜索引擎不喜欢在爬行时与在浏览器“亲自访问”时使用不同的输出,除非您在应用程序中提供一个链接到生成的HTML页面的标签。此外,使用GWTTestcase渲染HTML的性能问题可能会灾难性地影响网站,因为它并没有针对性能进行调整(而是用于测试和调试)。事实上,网络爬虫比用户更频繁地访问网站,在短时间内可能会使CPU达到最大负荷。目前,这个问题还没有令人满意的解决方案。