语言解析器和字符转义

Question

语言解析器和字符转义

3

我还没有找到一个关于字符转义的例子。但我找到了一个代码示例：

static void Main(string[] args)
{
    string text = "'test \\\' text'";
    var result = Grammar.QuotedText.End().Parse(text);
}

public static class Grammar
{
    private static readonly Parser<char> QuoteEscape = Parse.Char('\\');
    private static Parser<T> Escaped<T>(Parser<T> following)
    {
        return from escape in QuoteEscape
               from f in following
               select f;
    }

    private static readonly Parser<char> QuotedTextDelimiter = Parse.Char('\'');

      private static readonly Parser<char> QuotedContent =
          Parse.AnyChar.Except(QuotedTextDelimiter).Or(Escaped(QuotedTextDelimiter));

    public static Parser<string> QuotedText = (
        from lquot in QuotedTextDelimiter
        from content in QuotedContent.Many().Text()
        from rquot in QuotedTextDelimiter
        select content
        ).Token();
}

如果文本没有转义，则可以成功解析文本，但是带有字符转义的文本无法解析。

- vitidev

这里有一篇博客文章：https://thomaslevesque.com/tag/sprache/，其中解释了如何做到这一点。 - Brian Flynn

2个回答

0

我有一个需求，需要解析可以用单引号或双引号表示的字符串字面量，并且还支持转义。

生成字符串字面量解析器的方法：

private readonly StringBuilder _reusableStringBuilder = new StringBuilder();

private Parser<string> BuildStringLiteralParser(char delimiterChar)
{
    var escapeChar = '\\';

    var delimiter = Sprache.Parse.Char(delimiterChar);
    var escape = Sprache.Parse.Char(escapeChar);
    var escapedDelimiter = Sprache.Parse.String($"{escapeChar}{delimiterChar}");
    var splitByEscape = Sprache.Parse.AnyChar
        .Except(delimiter.Or(escape))
        .Many()
        .Text()
        .DelimitedBy(escapedDelimiter);

    string BuildStr(IEnumerable<IEnumerable<string>> splittedByEscape)
    {
        _reusableStringBuilder.Clear();

        var i = 0;

        foreach (var splittedByEscapedDelimiter in splittedByEscape)
        {
            if (i > 0)
            {
                _reusableStringBuilder.Append(escapeChar);
            }

            var j = 0;

            foreach (var str in splittedByEscapedDelimiter)
            {
                if (j > 0)
                {
                    _reusableStringBuilder.Append(delimiterChar);
                }

                _reusableStringBuilder.Append(str);

                j++;
            }

            i++;
        }

        return _reusableStringBuilder.ToString();
    }

    return (from ln in delimiter
            from splittedByEscape in splitByEscape.DelimitedBy(escape)
            from rn in delimiter
            select BuildStr(splittedByEscape)).Named("string");
}

使用方法：

var stringParser = BuildStringLiteralParser('\"').Or(BuildStringLiteralParser('\''));

var str1 = stringParser.Parse("\"'Hello' \\\"John\\\"\"");
Console.WriteLine(str1);

var str2 = stringParser.Parse("\'\\'Hello\\' \"John\"\'");
Console.WriteLine(str2);

输出：

'Hello' "John"
'Hello' "John"

请查看工作演示： https://dotnetfiddle.net/8wFNbj

- coceban.vlad

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- jasper · Accepted Answer

我遇到了类似的问题，使用"作为分隔符和\作为转义字符来解析字符串。我为此编写了一个简单的解析器（可能不是最优雅的解决方案），它似乎可以很好地工作。

由于唯一的区别似乎只是分隔符，因此您应该能够进行适当的调整。

var escapedDelimiter = Parse.String("\\\"").Text().Named("Escaped delimiter");
var singleEscape = Parse.String("\\").Text().Named("Single escape character");
var doubleEscape = Parse.String("\\\\").Text().Named("Escaped escape character");
var delimiter = Parse.Char('"').Named("Delimiter");
var simpleLiteral = Parse.AnyChar.Except(singleEscape).Except(delimiter).Many().Text().Named("Literal without escape/delimiter character");

var stringLiteral = (from start in delimiter
            from v in escapedDelimiter.Or(doubleEscape).Or(singleEscape).Or(simpleLiteral).Many()
            from end in delimiter
            select string.Concat(start) + string.Concat(v) + string.Concat(end));

关键部分是from v in ...。它首先搜索转义定界符，然后搜索双重转义字符和单一转义字符，最后尝试将其解析为没有任何转义或定界符字符的"simpleLiteral"。更改此处的顺序将导致解析错误（例如，如果您尝试在转义定界符之前解析单个转义，则永远找不到后者，双重转义和单次转义同理）。这个步骤会多次重复，直到出现一个未转义的定界符（from v in ...不处理未转义的定界符，但from end in delimiter当然会处理）。