将本地HTML文件读入R

15

我有一个在桌面上的HTML文件。(在Chrome中,右键点击网页,选择“保存为”,然后选择“网页,HTML”)。我该如何将此本地文件读入R?一旦在R中,我需要编写一些正则表达式来解析字符串并提取某些值。


看看这篇关于使用正则表达式进行解析的帖子吧:https://dev59.com/X3I-5IYBdhLWcg3wq6do - n1k31t4
3个回答

29

使用 readLines 如下:

 rawHTML <- paste(readLines("path/to/file.html"), collapse="\n")

1
今天,更好(并且更快)的做法是使用包含在整洁宇宙中的 xml2::read_html 来读取来自本地文件或 URL 的 html 内容。
library(xml2)
rawHTML <- read_html(x = "path/to/file.html")

由于此函数可以从本地文件或URL读取html内容,因此它为基于rvest库进行html抽取的自动化提供了输入灵活性。


1
另一种可能性是使用 htmltoolsincludehtml() 函数。
rawHTML <- includeHTML('path/to/file.html')

class(rawHTML)
[1] "html"      "character"

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接