如何在R中将特殊字符转换为Unicode？

Question

3

当我在R中进行文本数据清理时，我会发现一些特殊字符。为了摆脱它们，我必须知道它们的Unicode编码，例如€是\u20AC。我想知道是否有可能用一个函数“查看”Unicode编码，并将特殊字符中的字符串作为输入考虑？

- John Smith

以下帖子这里和这里可能会解决这个问题。此外，在互联网搜索中，我发现了一个名为“Unicode”的软件包，可能值得一试。 - lmo

1

您可以尝试使用函数“iconv”。 - Cath

原始编码是什么？ - C8H10N4O2

在控制台中，我可以正确看到字符“é”，然而使用iconv时，我得到的是“Ã©”；我希望看到的是“\u00E9”。 - John Smith

2

可能是[用非重音对应字符（UTF-8编码）替换R中的重音字符]的重复问题（https://dev59.com/xWIj5IYBdhLWcg3wOCuS）。 - mik

2个回答

1

参考 Cath 的评论，iconv 可以完成这项工作：

iconv("é", toRaw = TRUE)

然后，您可能想要使用 unlist 并使用 \u00 进行粘贴。

- stephLH

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Felix Dietrich · Accepted Answer

special_char <- "%"
Unicode::as.u_char(utf8ToInt(special_char))