"R和文本挖掘方面的初学者。目前正在使用tm包。
我正在尝试将两个不同文档的文本合并到一个语料库中。
当我使用像这样的语句时"
"或者是粘贴语句"
我得到每行文本组合的结果。
例如: 如果
这些陈述给我的感觉是:
如何防止这种情况发生,而是获得以下内容
还是有没有在R tm包中简单地合并文档的方法?谢谢!
给我合并corpus.doc[[1]]和corpus.doc[[2]]的文本。
显示类似于这样的东西
它继续进行着...
c(corpus.doc[[1]],corpus.doc[[2]])
"或者是粘贴语句"
paste(corpus.doc[[1]],corpus.doc[[2]])
我得到每行文本组合的结果。
例如: 如果
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
这些陈述给我的感觉是:
He visits very often She also
and stays
sometimes more
如何防止这种情况发生,而是获得以下内容
He visits very often
and
sometimes more
She also
stays
还是有没有在R tm包中简单地合并文档的方法?谢谢!
附加信息
当我使用
a <- c( corpus.doc[[1]], corpus.doc[[2]], recursive=TRUE)
我得到a变成一个包含两个文档的语料库,所以每个文档的文本仍然没有合并。我希望它这样做
a[[1]]
给我合并corpus.doc[[1]]和corpus.doc[[2]]的文本。
str(corpus.doc)
显示类似于这样的东西
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
它继续进行着...