我正在尝试爬取以下内容:
<p>Some.Title.html<br />
<a href="https://www.somelink.com/yep.html" rel="nofollow">https://www.somelink.com/yep.html</a><br />
Some.Title.txt<br />
<a href="https://www.somelink.com/yeppers.txt" rel="nofollow">https://www.somelink.com/yeppers.txt</a><br />
我尝试了以下几种变化:
match = re.compile('^(.+?)<br \/><a href="https://www.somelink.com(.+?)">',re.DOTALL).findall(html)
我想匹配带有“p”标签和没有“p”标签的行。只有第一次出现“p”标签。我不太擅长Python,所以我很生疏,在这里和谷歌上搜索了很久,但似乎都不太一样。非常感谢在我困难时得到的帮助。
期望的输出是一个索引:
<a href="Some.Title.html">http://www.SomeLink.com/yep.html</a>
<a href="Some.Title.txt">http://www.SomeLink.com/yeppers.txt</a>
regex
来解析 HTML,使用像 BeautifulSoup 这样专门用于此的工具。 - Vinícius Figueiredo