我想知道如何(或多或少)可靠地从随机网站剪辑内容(使用Ruby或JavaScript都可以)。
就像Evernote和Flipboard一样。
确定实际内容在页面上的位置的最佳方法是什么?
目的:给定URL-检索该页面的实际内容并忽略所有布局和其他无关信息。
例如:
- 给定http://ninemsn.com/ =>位于内容中间部分的主要新闻主题的HTML。
- 给定http://news.cnet.com/8301-1035_3-20104048-94/a-beginners-guide-to-telecom-jargon-part-7 =>主要文章的HTML。
只需使用Evernote的“剪辑全页”选项即可了解我的意思。
谢谢。