我正在尝试从一个使用JavaScript的页面中爬取URL。该页面没有直接提供链接,而是为许多表格行创建了onClick
事件。当您点击行时,它会将您带到链接。
我尝试使用Mechanize来爬取URL:
agent = Mechanize.new
page = agent.get(url)
page.links_with(:href => /^http?/).each do |link|
puts link.href
end
但是,通过HREF引用查找链接在这里不起作用,因为它们作为onClick
事件的一部分出现在页面上:
<tr onclick="window.open('/someurl');">
有没有一种好的方法使用Mechanize或其他gem来解析页面上的代码并提取嵌入在onClick
事件中的URL?
如果没有现成的好方案,那么最好的正则表达式是什么?我对正则表达式还不太熟悉,所以还不能自己编写出一个。