评估转义字符串

Question

评估转义字符串

5

我有一些已经转义过的字符串存储在文件中。因此，文件的内容看起来像这样：

Hello\nWorld. This is\tGreat.

当我读取文件时，\n会被作为两个不同的字符而不是一个。

如何将转义后的字符串转换为非转义的字符串？

- Radu

它能包含任何C#字符串字面量可以包含的内容吗，比如Unicode转义序列？引号呢？ - svick

5个回答

4

您可以尝试使用System.Text.RegularExpressions.Regex.Unescape。

还有一个MSDN论坛上的条目。

另请参阅如何在 .net 中取消转义和重新转义字符串？。

- Brad Christie

快速更正：应该是 System.Text.RegularExpressions.Regex.Unescape。请修改。 - Adriano Carneiro

2

Regex.Unescape 在这里不适用，它仅用于取消转义正则表达式控制字符。 - Variant

3

像你一样，我也无法找到一个合适的解决方案来解决这个问题。虽然你可以使用String.Replace，但这种方法的性能和速度非常糟糕。此外，通过这种方法支持八进制和Unicode转义序列很困难。一个更好的替代方案是使用简单的RegEx解析器。下面是一个可以正确取消转义任何给定字符串的方法。它支持标准转义序列、八进制转义序列和Unicode转义序列。

string UnEscape(string s) {
    StringBuilder sb = new StringBuilder();
    Regex r = new Regex("\\\\[abfnrtv?\"'\\\\]|\\\\[0-3]?[0-7]{1,2}|\\\\u[0-9a-fA-F]{4}|.");
    MatchCollection mc = r.Matches(s, 0);

    foreach (Match m in mc) {
        if (m.Length == 1) {
            sb.Append(m.Value);
        } else {
            if (m.Value[1] >= '0' && m.Value[1] <= '7') {
                int i = 0;

                for (int j = 1; j < m.Length; j++) {
                    i *= 8;
                    i += m.Value[j] - '0';
                }

                sb.Append((char)i);
            } else if (m.Value[1] == 'u') {
                int i = 0;

                for (int j = 2; j < m.Length; j++) {
                    i *= 16;

                    if (m.Value[j] >= '0' && m.Value[j] <= '9') {
                        i += m.Value[j] - '0';
                    } else if (m.Value[j] >= 'A' && m.Value[j] <= 'F') {
                        i += m.Value[j] - 'A' + 10;
                    } else if (m.Value[j] >= 'a' && m.Value[j] <= 'f') {
                        i += m.Value[j] - 'a' + 10;
                    }
                }

                sb.Append((char)i);
            } else {
                switch (m.Value[1]) {
                    case 'a':
                        sb.Append('\a');
                        break;
                    case 'b':
                        sb.Append('\b');
                        break;
                    case 'f':
                        sb.Append('\f');
                        break;
                    case 'n':
                        sb.Append('\n');
                        break;
                    case 'r':
                        sb.Append('\r');
                        break;
                    case 't':
                        sb.Append('\t');
                        break;
                    case 'v':
                        sb.Append('\v');
                        break;
                    default:
                        sb.Append(m.Value[1]);
                        break;
                }
            }
        }
    }

    return sb.ToString();
}

- deAtog

谢谢，这很棒，我对代码进行了一些小改进，以支持\U00000000格式字符并简化十六进制转换。我已经提交了我的版本，但你可以自由地将它合并到你的代码中。 - mcdrewski

2

你可以这样做：

string str = str.Replace(@"\n","\n");

更新：

显然，这是一个解决方法，因为场景本身就是“不自然”的。在这里不适用 Regex.Unescape 解决方案，因为它旨在用于取消转义正则表达式控制字符，而不是换行符等。

为了支持其他相关字符，可以编写如下的替换函数：

public string ReEscapeControlCharacters(string str) {
   return str.Replace(@"\n","\n").Replace(@"\r","\r").Replace(@"\t","\t");
}

- Variant

这是一个解决方法。那么制表符和其他隐藏和控制字符呢？他应该对所有其他字符都这样做吗？ - Tocco

显然这是一个变通方法...我会更新答案并提供更多细节。 - Variant

-3

试试这个：

String replaced = startstring.Replace(System.Environment.NewLine, desirevalue);

这只对 "\n" 有效。

- Tigran

3

如果这是一个解释的 \n，而不是一个转义的反斜杠加字母“n”，那就是这样的。 - Brad Christie

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- mcdrewski · Accepted Answer

基于@deAtog的代码，我进行了一些小的添加。

support \U00000000 format chars

simplify the hex conversions somewhat

string UnEscape(string s)
{
    StringBuilder sb = new StringBuilder();
    Regex r = new Regex("\\\\[abfnrtv?\"'\\\\]|\\\\[0-3]?[0-7]{1,2}|\\\\u[0-9a-fA-F]{4}|\\\\U[0-9a-fA-F]{8}|.");
    MatchCollection mc = r.Matches(s, 0);

    foreach (Match m in mc)
    {
        if (m.Length == 1)
        {
            sb.Append(m.Value);
        }
        else
        {
            if (m.Value[1] >= '0' && m.Value[1] <= '7')
            {
                int i = Convert.ToInt32(m.Value.Substring(1), 8);
                sb.Append((char)i);
            }
            else if (m.Value[1] == 'u')
            {
                int i = Convert.ToInt32(m.Value.Substring(2), 16);
                sb.Append((char)i);
            }
            else if (m.Value[1] == 'U')
            {
                int i = Convert.ToInt32(m.Value.Substring(2), 16);
                sb.Append(char.ConvertFromUtf32(i));
            }
            else
            {
                switch (m.Value[1])
                {
                    case 'a':
                        sb.Append('\a');
                        break;
                    case 'b':
                        sb.Append('\b');
                        break;
                    case 'f':
                        sb.Append('\f');
                        break;
                    case 'n':
                        sb.Append('\n');
                        break;
                    case 'r':
                        sb.Append('\r');
                        break;
                    case 't':
                        sb.Append('\t');
                        break;
                    case 'v':
                        sb.Append('\v');
                        break;
                    default:
                        sb.Append(m.Value[1]);
                        break;
                }
            }
        }
    }

    return sb.ToString();
}