HTML解析器用于创建GTFS格式数据

4

有一个交通机构,他们没有提供GTFS格式的交通时间表数据。我想制作一款可以搜索该机构信息的安卓应用程序,因此这种格式非常有用。 交通时间表数据有一个网站,但是似乎很难区分有用的内容。

<td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=so&term=20141214"><img src="coming.gif" class="stopPoint" alt="A megállóhoz tartozó indulási időpontok megjelenítéséhez kérem, kattintson ide!" /></a></td>
<td class="b stopTime p0">2</td>
<td class="b stopPeakTime p0">2</td>
<td class="b stopName p0" colspan="1">Frankenburg úti aluljáró</td>
<td class="b stopTransfer p0"><img src="transfer.gif" class="iconTransfer" alt="Átszállási lehetőség a felsorolt autóbuszvonalakra" />&nbsp;&nbsp;<a href="line.cgi?id=10&dir=to&zero=1590&city=so&term=20141214">10</a>, <a href="line.cgi?id=10Y&dir=to&zero=1590&city=so&term=20141214">10Y</a></td>

也许有现成的解析器可供使用,这对于这个目的会很有帮助。是否有可用的解析器?
1个回答

1

询问运输机构是否有办法以更有意义的格式提供时间表数据。他们可能有比当前更好的其他数据格式。

否则,您可能需要编写自定义的网页抓取/解析器。我喜欢使用Python的beautifulsoup库解析HTML,但也有许多其他方法可以实现。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接