将HTML表格转换为R数据框

10
<TABLE  cellspacing=1 cellpadding=7 rules=all frame=Box border=1>
<thead>
<TR>
 <TD ROWSPAN=2 ALIGN=CENTER VALIGN=CENTER>&nbsp;</TD>
 <TD COLSPAN=6 ALIGN=CENTER>1a. My peers make a positive impact my work environment.</TD>
 <TD ALIGN=CENTER>Number</TD>
</TR>
<TR>
 <TD ALIGN=CENTER>Strongly agree  <br>         </TD>
 <TD ALIGN=CENTER>Generally agree <br>         </TD>
 <TD ALIGN=CENTER>Neither agree nor<br>disagree</TD>
 <TD ALIGN=CENTER>Generally disagree<br>       </TD>
 <TD ALIGN=CENTER>Strongly disagree<br>        </TD>
 <TD ALIGN=CENTER>No basis to judge<br>        </TD>
 <TD ALIGN=CENTER>of Cases</TD>
</TR>
</thead>
<tbody>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP>  Company-Wide                                     </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.9</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         6.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>   2,014</TD>
</TR>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP> Region 1                                 </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.2</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         5.7</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.4</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>   1,699</TD>
</TR>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP>Division 1            </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        52.9</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        39.7</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         4.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.5</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.8</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>0</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>     121</TD>
</TR>
</tbody>
</TABLE>
<hr><A NAME="IDX1">&nbsp;</A>

我有一个包含多个类似表格的HTML文件。我想将它们转换为数据框,其中每个调查问题(目前在表头中)将出现在一列中。每个问题回答的百分比仍将保留在一列中,并且回答级别也将保留在另一列中。并非所有问题都有相同数量的回答选项(即某些问题是五点量表,而其他问题是九点量表)。我尝试使用readHTMLTable,然后对该结果进行do.call rbind,但无法获得所需的数据框,因为列数不相同。欢迎提供任何关于如何继续的建议。谢谢!
library(xml)
library(dplyr)
questions<-readHTMLTable(files[8], trim=T, as.data.frame=T, header=T)
data<-bind_rows(questions)

数据框中的结果是我想要的,但由于某些问题的响应级别比其他问题多,因此“案例数”数据不一致地出现在一列中。我是否有办法在合并之前为每个表格命名最后一列?


4
建议使用data.table::rbindlist函数,加上fill=TRUE参数,或者使用dplyr::bind_rows函数,它也可以填充缺失值。 - hrbrmstr
谢谢,这很有帮助。有没有一种方法可以一致地指示哪个变量是最后一个,以便我可以确保它被命名?一旦它们全部合并起来,一致地识别哪个变量是“案例数量”有点具有挑战性。 - edavidaja
你需要展示一些代码以回答更细节的问题(没有代码,很难假定过程结构是什么样子的)。 - hrbrmstr
1个回答

16

你可以使用rvest包来实现这个功能。不过,需要注意列名中的空格。我使用选项fill=TRUE作为一种快速修复方法,但也许有更好的方法。

library(rvest)
my_df <- as.data.frame(read_html(text) %>% html_table(fill=TRUE))
> my_df
#              X1                                                       X2                        X3                 X4                X5                X6       X7     X8
#1                1a. My peers make a positive impact my work environment.                      <NA>               <NA>              <NA>              <NA>     <NA> Number
#2 Strongly agree                                          Generally agree Neither agree nordisagree Generally disagree Strongly disagree No basis to judge of Cases   <NA>
#3   Company-Wide                                                     44.1                      44.9                6.6               2.6               1.6      0.1  2,014
#4       Region 1                                                     45.6                      45.2                5.7               2.1               1.4      0.1  1,699
#5     Division 1                                                     52.9                      39.7                4.1               2.5               0.8        0    121

关于数据,我从原始帖子中复制了html代码,并将其赋值给变量text,使用单引号进行赋值,代码如下:text <- '<TABLE cellspacing=1 cellpadding=7 rules=all frame=...'

该格式的一些细节可以以相当简单的方式进行更正:

my_df[2,] <- c("",my_df[2,][-length(my_df)])
#> my_df
#            X1                                                       X2              X3                        X4                 X5                X6                X7       X8
#1              1a. My peers make a positive impact my work environment.            <NA>                      <NA>               <NA>              <NA>              <NA>   Number
#2                                                        Strongly agree Generally agree Neither agree nordisagree Generally disagree Strongly disagree No basis to judge of Cases
#3 Company-Wide                                                     44.1            44.9                       6.6                2.6               1.6               0.1    2,014
#4     Region 1                                                     45.6            45.2                       5.7                2.1               1.4               0.1    1,699
#5   Division 1                                                     52.9            39.7                       4.1                2.5               0.8                 0      121

在这种情况下,第二行的条目应向右移动一个单元格。

数据

text <- '<TABLE  cellspacing=1 cellpadding=7 rules=all frame=Box border=1>\n  <thead>\n  <TR>\n  <TD ROWSPAN=2 ALIGN=CENTER VALIGN=CENTER>&nbsp;</TD>\n    <TD COLSPAN=6 ALIGN=CENTER>1a. My peers make a positive impact my work environment.</TD>\n      <TD ALIGN=CENTER>Number</TD>\n        </TR>\n        <TR>\n        <TD ALIGN=CENTER>Strongly agree  <br>         </TD>\n          <TD ALIGN=CENTER>Generally agree <br>         </TD>\n            <TD ALIGN=CENTER>Neither agree nor<br>disagree</TD>\n              <TD ALIGN=CENTER>Generally disagree<br>       </TD>\n                <TD ALIGN=CENTER>Strongly disagree<br>        </TD>\n                  <TD ALIGN=CENTER>No basis to judge<br>        </TD>\n                    <TD ALIGN=CENTER>of Cases</TD>\n                      </TR>\n                      </thead>\n                      <tbody>\n                      <TR>\n                      <TD ALIGN=LEFT VALIGN=TOP>  Company-Wide                                     </TD>\n                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.1</TD>\n                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.9</TD>\n                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         6.6</TD>\n                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.6</TD>\n                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.6</TD>\n                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>\n                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>   2,014</TD>\n                                      </TR>\n                                      <TR>\n                                      <TD ALIGN=LEFT VALIGN=TOP> Region 1                                 </TD>\n                                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.6</TD>\n                                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.2</TD>\n                                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         5.7</TD>\n                                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.1</TD>\n                                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.4</TD>\n                                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>\n                                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>   1,699</TD>\n                                                      </TR>\n                                                      <TR>\n                                                      <TD ALIGN=LEFT VALIGN=TOP>Division 1            </TD>\n                                                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        52.9</TD>\n                                                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        39.7</TD>\n                                                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         4.1</TD>\n                                                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.5</TD>\n                                                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.8</TD>\n                                                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>0</TD>\n                                                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>     121</TD>\n                                                                      </TR>\n                                                                      </tbody>\n                                                                      </TABLE>\n                                                                      <hr><A NAME=\"IDX1\">&nbsp;</A>'
#> class(text)
#[1] "character"

谢谢,这很有帮助。我的问题可能没有完全清楚地说明:理想情况下,“我的同行对我的工作环境产生积极影响”将出现在一个变量的数据下,并且对于我试图提取的每个问题都是如此。这个软件包是否适用于这种应用? - edavidaja
变量text属于哪个类?当我尝试在HTML文件上直接运行您的代码或使用readLines将其内容存储在字符向量中时,会出现错误(应用于“c('xml_document','xml_node')”类对象的'html_table'方法不适用)。 - edavidaja

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接