如何在Java中使用多个正则表达式进行匹配，并确定哪个表达式匹配

Question

如何在Java中使用多个正则表达式进行匹配，并确定哪个表达式匹配

3

我有一个Java程序，逐行读取文件，并尝试将每一行与四个正则表达式之一进行匹配。根据匹配的表达式不同，程序执行不同的操作。以下是我的代码：

private void processFile(ArrayList<String> lines) {
    ArrayList<Component> Components = new ArrayList<>();
    Pattern pattern = Pattern.compile(
            "Object name\\.{7}: (.++)|"
            + "\\{CAT=([^\\}]++)\\}|"
            + "\\{CODE=([^\\}]++)\\}|"
            + "\\{DESC=([^\\}]++)\\}");

    Matcher matcher;
    // Go through each line and see if the line matches the any of the regexes
    // defined
    Component currentComponent = null;

    for (String line : lines) {
        matcher = pattern.matcher(line);

        if (matcher.find()) {
            // We found a tag. Find out which one
            String match = matcher.group();

            if (match.startsWith("Obj")) {
                // We've got the object name
                if (currentComponent != null) {
                    Components.add(currentComponent);
                }
                currentComponent = new Component();
                currentComponent.setName(matcher.group(1));
            } else if (currentComponent != null) {
                if (match.startsWith("{CAT")) {
                    currentComponent.setCategory(matcher.group(2));
                } else if (match.startsWith("{CODE")) {
                    currentComponent.setOrderCode(matcher.group(3));
                } else if (match.startsWith("{DESC")) {
                    currentComponent.setDescription(matcher.group(4));
                }
            }
        }
    }

    if (currentComponent != null) {
        Components.add(currentComponent);
    }
}

如您所见，我已将这四个正则表达式合并为一个，并将整个正则表达式应用于该行。如果找到匹配项，则检查字符串的开头以确定匹配了哪个表达式，然后从组中提取数据。如果有人有兴趣运行代码，则以下是一些示例数据：

Object name.......: PMF3800SN
Last modified.....: Wednesday 9 November 2011 11:55:04 AM
File offset (hex).: 00140598 (Hex).
Checksum (hex)....: C1C0 (Hex).
Size (bytes)......: 1,736
Properties........: {*DEVICE}
                    {PREFIX=Q}
                    {*PROPDEFS}
                    {PACKAGE="PCB Package",PACKAGE,1,SOT-323 MOSFET}
                    {*INDEX}
                    {CAT=Transistors}
                    {SUBCAT=MOSFET}
                    {MFR=NXP}
                    {DESC=N-channel TrenchMOS standard level FET with ESD protection}
                    {CODE=1894711}
                    {*COMPONENT}

                    {PACKAGE=SOT-323 MOSFET}
                    *PINOUT SOT-323 MOSFET
                    {ELEMENTS=1}
                    {PIN "D" = D}
                    {PIN "G" = G}
                    {PIN "S" = S}

尽管我的代码可以运行，但我不喜欢在调用startsWith例程时重复字符串的部分。

我很好奇其他人会如何编写这个代码。

Amr

- Amr Bekhit

1

你为什么不创建四个不同的正则表达式实例，然后在每行上依次运行它们，直到匹配一个呢？ - Daniel Hilgarth

这可能解决你的问题。http://stackoverflow.com/questions/895279/regular-expression-to-match-multiple-query-string-parameter-value-pairs - Phani

我完全同意你的观点，如果不是我们手动处理，JVM会自动处理。但问题是，我们能否调整代码而不是一遍又一遍地编写相同的代码。就像axtavt回复的那样。 - Phani

编辑：我后来仔细查看了文档，并发现可以更改匹配器的起始位置，所以我想使用四个不同的正则表达式并没有我最初想象的那么糟糕。 - Amr Bekhit

1

您还可以将新的Pattern分配给现有的Matcher，而无需更改当前匹配位置（参考）。在某些情况下，这是一个非常有用的功能，但我认为这不是其中之一。这将使代码变得更加复杂，而没有足够的价值来证明它。 - Alan Moore

显示剩余3条评论

3个回答

2

正如 @axtavt 指出的那样，您可以直接发现一个组是否参加了比赛。您甚至不必更改正则表达式；您已经有一个捕获每个可选项的组。我喜欢使用 start(n) 方法进行测试，因为它看起来更整洁，但检查 group(n) 是否为空值（如 @axtavt 所做的）会产生相同的结果。以下是一个示例：

private static void processFile(ArrayList<String> lines) {

    Pattern p = Pattern.compile(
            "Object name\\.{7}: (.++)|"
            + "\\{CAT=([^\\}]++)\\}|"
            + "\\{CODE=([^\\}]++)\\}|"
            + "\\{DESC=([^\\}]++)\\}");

    // Create the Matcher now and reassign it to each line as we go.
    Matcher m = p.matcher("");

    for (String line : lines) {
        if (m.reset(line).find()) {
            // If group #n participated in the match, start(n) will be non-negative.
            if (m.start(1) != -1) {
                System.out.printf("%ncreating new component...%n");
                System.out.printf("  name: %s%n", m.group(1));
            } else if (m.start(2) != -1) {
                System.out.printf("  category: %s%n", m.group(2));
            } else if (m.start(3) != -1) {
                System.out.printf("  order code: %s%n", m.group(3));
            } else if (m.start(4) != -1) {
                System.out.printf("  description: %s%n", m.group(4));
            }
        }
    }
}

然而，我不确定我同意你对于在代码中重复字符串部分的推理。如果数据格式发生变化，或者您更改提取的字段，似乎在更新代码时更容易出现不同步的情况。换句话说，您当前的代码不是冗余的，它是自我说明的。:D

编辑：您在评论中提到过一次性处理整个文件的可能性，而不是逐行处理。那其实是更简单的方法。

private static void processFile(String contents) {

    Pattern p = Pattern.compile(
            "Object name\\.{7}: (.++)|"
            + "\\{CAT=([^\\}]++)\\}|"
            + "\\{CODE=([^\\}]++)\\}|"
            + "\\{DESC=([^\\}]++)\\}");

    Matcher m = p.matcher(contents);

    while (m.find()) {
        if (m.start(1) != -1) {
            System.out.printf("%ncreating new component...%n");
            System.out.printf("  name: %s%n", m.group(1));
        } else if (m.start(2) != -1) {
            System.out.printf("  category: %s%n", m.group(2));
        } else if (m.start(3) != -1) {
            System.out.printf("  order code: %s%n", m.group(3));
        } else if (m.start(4) != -1) {
            System.out.printf("  description: %s%n", m.group(4));
        }
    }
}

- Alan Moore

0

我会定义一个元对象，它是一个模式加上可运行的内容。遍历每一行，然后遍历元对象。如果有一个匹配，就执行可运行的内容。类似这样：

class Meta {
  Pattern pattern;
  Runnable runnable;
  Matcher matcher;

  Meta(Pattern p, Runnable r) {
    pattern = p;
    runnable = r;
  }
}

Meta[] metas = new Meta[] { new Meta(Pattern.compile(...), new Runnable() { ... }), new Meta(...), ... };


for (String line : lines) {
  for (Meta meta : metas) {
    final Matcher matcher = meta.pattern.matcher(line);
    if (matcher.matches()) {
      meta.matcher = matcher;
      meta.runnable.run();
    }
  }
}

以下是“Object”行的Meta对象的样子：

Meta m = new Meta(Pattern.compile("Object name\\.{7}: (.++)", new Runnable() {
  // We've got the object name
  if (currentComponent != null) {
    Components.add(currentComponent);
  }
  currentComponent = new Component();
  currentComponent.setName(matcher.group(1));
});

- Jeffrey Blattman

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- axtavt · Accepted Answer

group() 返回未匹配的组为 null。因此，您可以将子表达式分组并在匹配后检查它们是否为 null：

Pattern pattern = Pattern.compile(
         "(Object name\\.{7}: (.++))|"
         + "(\\{CAT=([^\\}]++)\\})|"
         + "(\\{CODE=([^\\}]++)\\})|"
         + "(\\{DESC=([^\\}]++)\\})"); 
...
if (match.group(1) != null) { // Object ...
    ...
} ...

实际上，如果在子表达式中没有 |，你甚至可以使用现有的组来完成此操作。