替换特殊字符（破折号）

Question

6

我曾试图使用gsub替换我认为是标准破折号的符号。我测试的代码如下：


gsub("-", "ABC", "reported – estimate")

然而，这并没有起作用。我将破折号复制粘贴到http://unicodelookup.com/#–/1，发现它似乎是一个英文破折号。该网站提供了英文破折号的十六进制、十进制等代码，我一直在尝试替换英文破折号，但没有成功。有什么建议吗？

（作为奖励，如果您能告诉我是否有一个函数来识别特殊字符，那会很有帮助）。

我不确定SO的代码格式是否会改变破折号的格式，所以这里是我使用的破折号(–)。

- ZRoss

2个回答

3

对于特殊字符替换，你可以使用负补集。

gsub('[^\\w]*', 'ABC', 'reported - estimate', perl = True) 将用 ABC 替换所有特殊字符。[^\w] 是一个模式，表示任何不是正常字符的内容。

- Seekheart

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Wiktor Stribiżew · Accepted Answer

您可以通过在正则表达式模式中指定它来替换en-dash。

gsub("–", "ABC", "reported – estimate")

您可以使用以下方法匹配所有连字符、短划线和长划线：

gsub("[-–—]", "ABC", "reported – estimate — more - text")

要检查字符串中是否有非ASCII字符，请使用以下方法：

> s = "plus ça change, plus c'est la même chose"
> gsub("[[:ascii:]]+", "", s, perl=T)
[1] "çê"

如果一个字符串只由“单词”字符和空格组成，您将得到一个空结果，否则（就像这里一样）将得到一些“特殊”的字符。