我正在尝试使用YQL从一系列网页中提取HTML部分。这些页面本身具有略微不同的结构(因此Yahoo Pipes的“获取页面”和其“剪切内容”功能效果不佳),但我感兴趣的片段始终具有相同的class
属性。
如果我有这样的HTML页面:
<html>
<body>
<div class="foo">
<p>Wolf</p>
<ul>
<li>Dog</li>
<li>Cat</li>
</ul>
</div>
</body>
</html>
然后使用这样的 YQL 表达式:
SELECT * FROM html
WHERE url="http://example.com/containing-the-fragment-above"
AND xpath="//div[@class='foo']"
我得到的是(看起来是无序的?)DOM元素,而我想要的是HTML内容本身。我也尝试过使用 SELECT content
,但那只会选择文本内容。我想要HTML。这可能吗?
produces="HTML"
(和CSV
),尽管可能没有记录,而且我还没有进行过实验,但可能有更直接的方法来实现这个问题的目标。 - hippietrail