我正在努力剖析craigslist的rss源以提取位置信息,让我感到十分困难。
我使用了feedparser将脚本解析成条目和条目描述。不幸的是,地址信息包含在描述部分的不规则标签中。
地址信息包含在类似于这样的部分中:
<!-- CLTAG xstreet0=11832 se 318pl -->
<!-- CLTAG xstreet1= -->
<!-- CLTAG city=auburn -->
<!-- CLTAG region=wa -->
11832 se 318pl
Feedparser 不喜欢那些 CLTAGS。我尝试使用正则表达式捕获第一行,代码如下:
addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'
prog = re.compile(addressStart(.*?)addressEnd)
result = prog.match(string)
但是那行不通。我做错了什么?这是我正在使用的rss源链接:'http://seattle.craigslist.org/see/apa/index.rss'
非常感谢您的任何帮助!