我正在尝试编写一个屏幕抓取程序,想要下载一个网站的主页。
当我在浏览器中查看页面源代码时,没有获取到完整的HTML代码。如何确保我加载了在浏览器中查看源代码时看到的所有内容?
当我在浏览器中查看页面源代码时,没有获取到完整的HTML代码。如何确保我加载了在浏览器中查看源代码时看到的所有内容?
# Required Gems
require 'rubygems' # Loads gems
require "nokogiri" # Nokogiri
require "open-uri" # For Nokogiri
require "chronic" # For time parsing
require "cgi" # For parsing urls
require 'net/http' # For image downloading
URL = URI.parse("http://www.gocrimson.com/landing/index")
hBOList = Nokogiri::HTML(open(URL))