我正在尝试创建一个网络爬虫,从供应商网站中提取一些属性数据,以便与我们的内部属性数据库进行审核。我刚开始使用import.io。我看了很多视频,但是虽然我的语法似乎没问题,但手动xpath覆盖功能却没有返回属性值。以下是我使用的示例html代码:
<table>
<tbody><tr class="oddRow">
<td class="label"> Adhesive Type‎</td><td> Epoxy‎
</td>
</tr>
<tr>
<td class="label"> Applications‎</td><td> Hard Disk Drive Component Assembly‎
</td>
</tr>
<tr class="oddRow">
<td class="label"> Brand‎</td><td> Scotch-Weld‎
</td>
</tr>
<tr>
<td class="label"> Capabilities‎</td><td> Sustainability‎
</td>
</tr>
<tr class="oddRow">
<td class="label"> Color‎</td><td> Clear Amber‎
</td>
我正在尝试编写一个XPath following-sibling语句,通过import.io爬虫获取“Color”信息。当我选择“Color”时,XPath代码如下:
//*[@id="attributeList"]/table/tbody/tr[5]/td[1]
我尝试使用:
//*[@id="attributeList"]/table/tbody/tr/td[.="Color"]/following-sibling::td
但它并没有从表格中获取颜色属性值。我不确定这是否与奇数行和偶数行类有关?当我查看HTML时,它似乎很合乎逻辑;颜色是"Color",属性值在以下td括号中。