使用ANTLR为Java源代码生成抽象语法树

11

我该如何使用ANTLR从Java源代码生成AST?
有什么帮助吗?


1
太过宽泛了。从ANTLR教程开始,或者寻找现有的语法。 - millimoose
获取一个 Java 语法。通过 ANTLR 生成的类运行 Java 源代码。不过,使用 Eclipse 工具可能会更容易些。 - Dave Newton
请问您能否发布一些有用的链接或教程?谢谢。 - Aboelnour
2个回答

13

好的,下面是步骤:

  1. Go to the ANTLR site and download the latest version
  2. Download the Java.g and the JavaTreeParser.g files from here.
  3. Run the following commands:

    java -jar antlrTool Java.g
    java -jar antlrTool JavaTreeParser.g
    
  4. 5 files will be generated:

    1. Java.tokens
    2. JavaLexer.java
    3. JavaParser.java
    4. JavaTreeParser.g
    5. JavaTreeParser.tokens
使用以下Java代码生成抽象语法树并打印它:
        String input = "public class HelloWord {"+
                   "public void print(String r){" +
                   "for(int i = 0;true;i+=2)" +
                   "System.out.println(r);" +
                   "}" +
                   "}";

    CharStream cs = new ANTLRStringStream(input);
    JavaLexer jl = new JavaLexer(cs);

    CommonTokenStream tokens = new CommonTokenStream();
    tokens.setTokenSource(jl);
    JavaParser jp = new JavaParser(tokens);
    RuleReturnScope result = jp.compilationUnit();
    CommonTree t = (CommonTree) result.getTree();

    CommonTreeNodeStream nodes = new CommonTreeNodeStream(t);

    nodes.setTokenStream(tokens);

    JavaTreeParser walker = new JavaTreeParser(nodes);

    System.out.println("\nWalk tree:\n");

    printTree(t,0);


    System.out.println(tokens.toString());

    }

public static void printTree(CommonTree t, int indent) {
    if ( t != null ) {
        StringBuffer sb = new StringBuffer(indent);
        for ( int i = 0; i < indent; i++ )
            sb = sb.append("   ");
        for ( int i = 0; i < t.getChildCount(); i++ ) {
            System.out.println(sb.toString() + t.getChild(i).toString());
            printTree((CommonTree)t.getChild(i), indent+1);
        }
    }
}

1
谢谢@Aboelnour。但是你提到的页面已经不存在了。有什么帮助吗? - Makan
另一个问题,如果JavaTreeParser.java不在生成的文件中,它是从哪里来的? - Makan
1
@MakanTayebi 我认为这会有所帮助:https://github.com/antlr/grammars-v4 - ConductedClever
@Aboelnour,请问您能否更新antlr v4的这个答案? - ConductedClever
1
即使这个答案有点老,我还是把链接放回去了:http://www.habelitz.com/images/downloads/javagrammars/Java7WithSomeJava8FeaturesGrammars_2016_01_23.zip - Davide
显示剩余3条评论

6
生成Java源代码AST的步骤如下:
  1. 安装antlr4,您可以使用此链接进行安装。
  2. 安装完成后,从此处下载JAVA语法文件。
  3. 现在使用以下命令生成Java8Lexer和Java8Parser:

    antlr4 -visitor Java8.g4

  4. 这将生成多个文件,例如Java8BaseListener.java Java8BaseVisitor.java Java8Lexer.java Java8Lexer.tokens Java8Listener.java Java8Parser.java Java8.tokens Java8Visitor.java

使用以下代码生成AST:

import java.io.File;
import java.io.IOException;

import java.nio.charset.Charset;
import java.nio.file.Files;

import org.antlr.v4.runtime.ANTLRInputStream;
import org.antlr.v4.runtime.CommonTokenStream;
import org.antlr.v4.runtime.ParserRuleContext;
import org.antlr.v4.runtime.RuleContext;
import org.antlr.v4.runtime.tree.ParseTree;

public class ASTGenerator {

    public static String readFile() throws IOException {
        File file = new File("path/to/the/test/file.java");
        byte[] encoded = Files.readAllBytes(file.toPath());
        return new String(encoded, Charset.forName("UTF-8"));
    }

    public static void main(String args[]) throws IOException {
        String inputString = readFile();
        ANTLRInputStream input = new ANTLRInputStream(inputString);
        Java8Lexer lexer = new Java8Lexer(input);
        CommonTokenStream tokens = new CommonTokenStream(lexer);
        Java8Parser parser = new Java8Parser(tokens);
        ParserRuleContext ctx = parser.classDeclaration();

        printAST(ctx, false, 0);
    }

    private static void printAST(RuleContext ctx, boolean verbose, int indentation) {
        boolean toBeIgnored = !verbose && ctx.getChildCount() == 1 && ctx.getChild(0) instanceof ParserRuleContext;

        if (!toBeIgnored) {
            String ruleName = Java8Parser.ruleNames[ctx.getRuleIndex()];
            for (int i = 0; i < indentation; i++) {
                System.out.print("  ");
            }
            System.out.println(ruleName + " -> " + ctx.getText());
        }
        for (int i = 0; i < ctx.getChildCount(); i++) {
            ParseTree element = ctx.getChild(i);
            if (element instanceof RuleContext) {
                printAST((RuleContext) element, verbose, indentation + (toBeIgnored ? 0 : 1));
            }
        }
    }
}

完成代码编写后,您可以使用gradle构建项目,或者在项目目录中下载antlr-4.7.1-complete.jar并开始编译。
如果您想要将输出保存为DOT文件以便于可视化AST,则可以参考此问答帖子,或直接参考这个仓库,我在其中使用了gradle来构建项目。
希望这能帮到您。 :)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接