我希望有一个或多个正则表达式可以实现以下功能:
1)获取大型页面的HTML代码。
2)查找所有链接中包含的URL,例如:
1)获取大型页面的HTML代码。
2)查找所有链接中包含的URL,例如:
<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>
因此,它应该提取包含在'href'
属性中的URL,无论前面或后面是什么。
3)提取所有链接的锚文本,例如在上面的示例中,它应该返回'http://example1.com'和锚文本'Test 1',然后是'http://example2.com'和'Test 2'等等。