24得票3回答
将书面数字转换为R中的数字

有没有人知道一种将文本中表示数字的字符串转换成实际数字的函数,例如将“二万零三百零五”转换成20305。我已经在数据框的行中写入了数字,希望将它们转换为数字。在qdap软件包中,你可以用单词替换数字表示的数字(例如1001变成一千零一),但反过来则不行:library(qdap) replac...

15得票7回答
将语料库拆分为句子的R代码

我有很多PDF文档,使用库tm读入了一个语料库,如何将该语料库分成句子? 可以通过使用qdap包中的sentSplit函数从文件中读取文本 (readLines ),生成数据帧,并对其进行拆分以实现该目标[*]。但这需要放弃使用语料库并逐个读取所有文件。 如何在tm中对语料库使用sentSp...

13得票4回答
创建包含4M行的语料库和DTM的更有效方法

我的文件有超过4M行,我需要更高效的方法将数据转换为语料库和文档-词项矩阵,以便将其传递给贝叶斯分类器。 请考虑以下代码:library(tm) GetCorpus <-function(textVector) { doc.corpus <- Corpus(VectorSou...

10得票1回答
在Azure ML中,R包(qdapTools)的版本无法正确检测到。

我正在尝试在Azure ML中安装qdap包。其他依赖包都能够顺利安装。但是当安装qdapTools时,我遇到了错误,尽管我尝试安装的版本是1.3.1(从R软件包附带的说明文件中确认过)。package 'qdapTools' 1.1.0 was found, but >= 1.3.1 ...

8得票2回答
R: 将相似的地址分组在一起

我有一个手动输入地址的文件,包含40万行数据需要进行地理编码。该文件中包含许多相同地址的不同变体,因此多次使用API调用来编码同一地址似乎很浪费。 为了减少这种情况,我希望将以下五个地址合并: Address 1 Main Street, Country A, World ...

7得票1回答
如何避免使用命名空间(未附加)加载包时的类名冲突(qdap和openssl)。

使用qdap::polarity()函数时,有时会出现以下错误: Error in derive_pubkey(key) : RAW() can only be applied to a 'raw', not a 'list' 我相当确定这是由于qdap的key类与opens...