我希望使用Google Apps Script在Google表格中创建一个网络爬虫。我知道这是可能的,并且我已经看过一些关于此的教程和讨论。
主要思路是使用:
var html = UrlFetchApp.fetch('http://en.wikipedia.org/wiki/Document_Object_Model').getContentText();
var doc = XmlService.parse(html);
然后获取并处理元素。但是,该方法
XmlService.parse()
对于某些页面无法正常工作。例如,如果我尝试:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var parse = XmlService.parse(html);
}
我得到了以下错误:
Error on line 225: The entity name must immediately follow the '&' in the entity reference. (line 3, file "")
我尝试使用string.replace()
来消除导致错误的字符,但它没有起作用。出现了各种其他的错误。以下代码是一个例子:
I've tried to use string.replace()
to eliminate the characters that apparently are causing the error, but it does not work. All sort of other errors appear. The following code for example:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var regExp = new RegExp("&", "gi");
html = html.replace(regExp,"");
var parse = XmlService.parse(html);
}
会弹出以下错误:
Error on line 358: The content of elements must consist of well-formed character data or markup. (line 6, file "")
我认为这是XmlService.parse()
方法存在的问题。
我在以下讨论中阅读到:
Google App Script解析混乱的HTML表格 和 最佳的在Google Apps Script中解析HTML的方法。其中提到可以使用一个名为xml.parse()
的过时方法,该方法接受第二个参数以允许解析HTML。但是正如我所提到的,它已被弃用,并且我无法在任何地方找到任何关于它的文档。似乎xml.parse()
可以解析字符串,但由于缺乏文档,我无法处理元素。而且它也不是长期安全的解决方案,因为它可能很快就会被停用。
那么,我想知道在Google Apps Script中如何解析这个HTML?
我也尝试了:
function test(){
var html = UrlFetchApp.fetch("https://www.nespresso.com/br/pt/product/maquina-de-cafe-espresso-pixie-clips-preto-lima-neon-c60-220v").getContentText();
var htmlOutput = HtmlService.createHtmlOutput(html).getContent();
var parse = XmlService.parse(htmlOutput);
}
但是它不起作用,我收到了这个错误:
格式不正确的HTML内容:
我考虑使用一个开源库来解析HTML,但是我找不到任何一个。
我的最终目标是从一系列页面中获取一些信息,例如产品的价格、链接、名称等。我已经通过一系列正则表达式实现了这一点:
var ss = SpreadsheetApp.getActiveSpreadsheet();
var linksSheet = ss.getSheetByName("Links");
var resultadosSheet = ss.getSheetByName("Resultados");
function scrapyLoco(){
var links = linksSheet.getRange(1, 1, linksSheet.getLastRow(), 1).getValues();
var arrayGrandao = [];
for (var row = 0, len = links.length; row < len; row++){
var link = links[row];
var arrayDeResultados = pegarAsCoisas(link[0]);
Logger.log(arrayDeResultados);
arrayGrandao.push(arrayDeResultados);
}
resultadosSheet.getRange(2, 1, arrayGrandao.length, arrayGrandao[0].length).setValues(arrayGrandao);
}
function pegarAsCoisas(linkDoProduto) {
var resultadoArray = [];
var html = UrlFetchApp.fetch(linkDoProduto).getContentText();
var regExp = new RegExp("<h1([^]*)h1>", "gi");
var h1Html = regExp.exec(html);
var h1Parse = XmlService.parse(h1Html[0]);
var h1Output = h1Parse.getRootElement().getText();
h1Output = h1Output.replace(/(\r\n|\n|\r|(^( )*))/gm,"");
regExp = new RegExp("Ref.: ([^(])*", "gi");
var codeHtml = regExp.exec(html);
var codeOutput = codeHtml[0].replace("Ref.: ","").replace(" ","");
regExp = new RegExp("margin-top: 5px; margin-bottom: 5px; padding: 5px; background-color: #699D15; color: #fff; text-align: center;([^]*)/div>", "gi");
var descriptionHtml = regExp.exec(html);
var regExp = new RegExp("<p([^]*)p>", "gi");
var descriptionHtml = regExp.exec(descriptionHtml);
var regExp = new RegExp("^[^.]*", "gi");
var descriptionHtml = regExp.exec(descriptionHtml);
var descriptionOutput = descriptionHtml[0].replace("<p>","");
descriptionOutput = descriptionOutput+".";
regExp = new RegExp("ecom(.+?)Main.png", "gi");
var imageHtml = regExp.exec(html);
var comecoDaURL = "https://www.nespresso.com/";
var imageOutput = comecoDaURL+imageHtml[0];
var regExp = new RegExp("nes_l-float nes_big-price nes_big-price-with-out([^]*)p>", "gi");
var precoHtml = regExp.exec(html);
var regExp = new RegExp("[0-9]*,", "gi");
precoHtml = regExp.exec(precoHtml);
var precoOutput = "BRL "+precoHtml[0].replace(",","");
resultadoArray = [codeOutput,h1Output,descriptionOutput,"Home & Garden > Kitchen & Dining > Kitchen Appliances > Coffee Makers & Espresso Machines",
"Máquina",linkDoProduto,imageOutput,"new","in stock",precoOutput,"","","","Nespresso",codeOutput];
return resultadoArray;
}
但是编写这个程序需要很长时间,很难动态更改,并且不太可靠。
我需要一种解析HTML并轻松访问其元素的方法。实际上这不是一个插件,而是一个简单的Google应用脚本。