我有一些已经转义过的字符串存储在文件中。因此,文件的内容看起来像这样:
Hello\nWorld. This is\tGreat.
当我读取文件时,\n
会被作为两个不同的字符而不是一个。
如何将转义后的字符串转换为非转义的字符串?
基于@deAtog的代码,我进行了一些小的添加。
simplify the hex conversions somewhat
string UnEscape(string s)
{
StringBuilder sb = new StringBuilder();
Regex r = new Regex("\\\\[abfnrtv?\"'\\\\]|\\\\[0-3]?[0-7]{1,2}|\\\\u[0-9a-fA-F]{4}|\\\\U[0-9a-fA-F]{8}|.");
MatchCollection mc = r.Matches(s, 0);
foreach (Match m in mc)
{
if (m.Length == 1)
{
sb.Append(m.Value);
}
else
{
if (m.Value[1] >= '0' && m.Value[1] <= '7')
{
int i = Convert.ToInt32(m.Value.Substring(1), 8);
sb.Append((char)i);
}
else if (m.Value[1] == 'u')
{
int i = Convert.ToInt32(m.Value.Substring(2), 16);
sb.Append((char)i);
}
else if (m.Value[1] == 'U')
{
int i = Convert.ToInt32(m.Value.Substring(2), 16);
sb.Append(char.ConvertFromUtf32(i));
}
else
{
switch (m.Value[1])
{
case 'a':
sb.Append('\a');
break;
case 'b':
sb.Append('\b');
break;
case 'f':
sb.Append('\f');
break;
case 'n':
sb.Append('\n');
break;
case 'r':
sb.Append('\r');
break;
case 't':
sb.Append('\t');
break;
case 'v':
sb.Append('\v');
break;
default:
sb.Append(m.Value[1]);
break;
}
}
}
}
return sb.ToString();
}
System.Text.RegularExpressions.Regex.Unescape
。请修改。 - Adriano CarneiroRegex.Unescape
在这里不适用,它仅用于取消转义正则表达式控制字符。 - Variant像你一样,我也无法找到一个合适的解决方案来解决这个问题。虽然你可以使用String.Replace,但这种方法的性能和速度非常糟糕。此外,通过这种方法支持八进制和Unicode转义序列很困难。一个更好的替代方案是使用简单的RegEx解析器。下面是一个可以正确取消转义任何给定字符串的方法。它支持标准转义序列、八进制转义序列和Unicode转义序列。
string UnEscape(string s) {
StringBuilder sb = new StringBuilder();
Regex r = new Regex("\\\\[abfnrtv?\"'\\\\]|\\\\[0-3]?[0-7]{1,2}|\\\\u[0-9a-fA-F]{4}|.");
MatchCollection mc = r.Matches(s, 0);
foreach (Match m in mc) {
if (m.Length == 1) {
sb.Append(m.Value);
} else {
if (m.Value[1] >= '0' && m.Value[1] <= '7') {
int i = 0;
for (int j = 1; j < m.Length; j++) {
i *= 8;
i += m.Value[j] - '0';
}
sb.Append((char)i);
} else if (m.Value[1] == 'u') {
int i = 0;
for (int j = 2; j < m.Length; j++) {
i *= 16;
if (m.Value[j] >= '0' && m.Value[j] <= '9') {
i += m.Value[j] - '0';
} else if (m.Value[j] >= 'A' && m.Value[j] <= 'F') {
i += m.Value[j] - 'A' + 10;
} else if (m.Value[j] >= 'a' && m.Value[j] <= 'f') {
i += m.Value[j] - 'a' + 10;
}
}
sb.Append((char)i);
} else {
switch (m.Value[1]) {
case 'a':
sb.Append('\a');
break;
case 'b':
sb.Append('\b');
break;
case 'f':
sb.Append('\f');
break;
case 'n':
sb.Append('\n');
break;
case 'r':
sb.Append('\r');
break;
case 't':
sb.Append('\t');
break;
case 'v':
sb.Append('\v');
break;
default:
sb.Append(m.Value[1]);
break;
}
}
}
}
return sb.ToString();
}
你可以这样做:
string str = str.Replace(@"\n","\n");
显然,这是一个解决方法,因为场景本身就是“不自然”的。在这里不适用 Regex.Unescape
解决方案,因为它旨在用于取消转义正则表达式控制字符,而不是换行符等。
为了支持其他相关字符,可以编写如下的替换函数:
public string ReEscapeControlCharacters(string str) {
return str.Replace(@"\n","\n").Replace(@"\r","\r").Replace(@"\t","\t");
}
试试这个:
String replaced = startstring.Replace(System.Environment.NewLine, desirevalue);
这只对 "\n" 有效。
\n
,而不是一个转义的反斜杠加字母“n”,那就是这样的。 - Brad Christie