我有一个格式不正确的页面需要抓取,但一直很难在YQL中获取正确的XPath。例如,我可以使用以下方法抓取我需要的单个字段:
//*[@id="cell_12345"]
但我实际需要做的是返回所有 ID 以 cell_
开头的元素。例如:
//*[@id="cell_"*]
我该如何做到这一点?
另外,如果有人能指导我一个好的XPath参考资料将非常有帮助。
谢谢!
类似于什么
//*[starts-with(@id, 'ceil_')]
应该做得很好。
至于XPath参考,一旦你知道语法和轴,任何旧的函数参考都应该有所帮助。这是谷歌上的第一个: http://www.w3schools.com/xpath/xpath_functions.asp