如何在R中将特殊字符转换为Unicode?

3

当我在R中进行文本数据清理时,我会发现一些特殊字符。为了摆脱它们,我必须知道它们的Unicode编码,例如€是\u20AC。我想知道是否有可能用一个函数“查看”Unicode编码,并将特殊字符中的字符串作为输入考虑?


以下帖子这里这里可能会解决这个问题。此外,在互联网搜索中,我发现了一个名为“Unicode”的软件包,可能值得一试。 - lmo
1
您可以尝试使用函数“iconv”。 - Cath
原始编码是什么? - C8H10N4O2
在控制台中,我可以正确看到字符“é”,然而使用iconv时,我得到的是“é”;我希望看到的是“\u00E9”。 - John Smith
2
可能是[用非重音对应字符(UTF-8编码)替换R中的重音字符]的重复问题(https://dev59.com/xWIj5IYBdhLWcg3wOCuS)。 - mik
2个回答

1
special_char <- "%"
Unicode::as.u_char(utf8ToInt(special_char))

1
参考 Cath 的评论,iconv 可以完成这项工作:
iconv("é", toRaw = TRUE)

然后,您可能想要使用 unlist 并使用 \u00 进行粘贴。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接