Как создать AST с ANTLR4?

Question

Как создать AST с ANTLR4?

Я много искал об этом, и я не мог найти ничего полезного, что действительно помогает мне построить AST. Я уже знаю,что ANTLR4 не строит AST, как это делал ANTLR3. Все говорят: "Эй, используйте посетителей!", но я не смог найти никакого примера или более подробного объяснения того, как я могу это сделать...

У меня грамматика должна нравиться C, но с каждой командой, написанной на португальском языке (portuga programming language). Я могу легко создать дерево синтаксического анализа с помощью ANTLR4. Мой вопрос is: что мне нужно сделать сейчас, чтобы создать AST?

кстати, я использую Java и IntelliJ...

EDIT1: ближе всего я мог получить, используя ответ на эту тему:есть ли простой пример использования antlr4 для создания AST из исходного кода java и извлечения методов, переменных и комментариев? Но он печатает только название посещенных методов..

Так как первая попытка не сработала для меня, как я ожидал, я попытался использовать этот учебник из ANTLR3, но я не мог понять, как использовать StringTamplate вместо ST...

чтение книги окончательная ссылка ANTLR 4 я также не смог найти ничего, связанного с ASTs.

EDIT2: теперь у меня есть один класс для создания файла DOT, мне просто нужно выяснить, как правильно использовать посетителей

46

abstract-syntax-tree antlr antlr4 compiler-construction java

автор: Community

2 ответов

автор: Lucas Trzesniewski · Accepted Answer · 2017-02-12 19:01:22

Хорошо, давайте построим простой пример математики. Построение AST полностью излишне для такой задачи, но это хороший способ показать принцип.

Я сделаю это на C#, но версия Java будет очень похожа.

грамматика

во-первых, давайте напишем очень простую математическую грамматику для работы с:

grammar Math;

compileUnit
    :   expr EOF
    ;

expr
    :   '(' expr ')'                         # parensExpr
    |   op=('+'|'-') expr                    # unaryExpr
    |   left=expr op=('*'|'/') right=expr    # infixExpr
    |   left=expr op=('+'|'-') right=expr    # infixExpr
    |   func=ID '(' expr ')'                 # funcExpr
    |   value=NUM                            # numberExpr
    ;

OP_ADD: '+';
OP_SUB: '-';
OP_MUL: '*';
OP_DIV: '/';

NUM :   [0-9]+ ('.' [0-9]+)? ([eE] [+-]? [0-9]+)?;
ID  :   [a-zA-Z]+;
WS  :   [ \t\r\n] -> channel(HIDDEN);

довольно простой материал, у нас есть один expr правило, которое обрабатывает все (правила очередности и т. д.).

АСТ узлы

тогда давайте определим некоторые узлы AST, которые мы будем использовать. Это полностью настраиваемый, и вы можете определить их так, как вы хотите.

вот узлы, которые мы будем использовать для этого примера:

internal abstract class ExpressionNode
{
}

internal abstract class InfixExpressionNode : ExpressionNode
{
    public ExpressionNode Left { get; set; }
    public ExpressionNode Right { get; set; }
}

internal class AdditionNode : InfixExpressionNode
{
}

internal class SubtractionNode : InfixExpressionNode
{
}

internal class MultiplicationNode : InfixExpressionNode
{
}

internal class DivisionNode : InfixExpressionNode
{
}

internal class NegateNode : ExpressionNode
{
    public ExpressionNode InnerNode { get; set; }
}

internal class FunctionNode : ExpressionNode
{
    public Func<double, double> Function { get; set; }
    public ExpressionNode Argument { get; set; }
}

internal class NumberNode : ExpressionNode
{
    public double Value { get; set; }
}

преобразование CST в AST

ANTLR сгенерировал узлы CST для нас (MathParser.*Context классы). Теперь мы должны преобразовать их в узлы AST.

это легко сделать с посетителем, и ANTLR предоставляет нам MathBaseVisitor<T> класс, так давайте работать с этим.

internal class BuildAstVisitor : MathBaseVisitor<ExpressionNode>
{
    public override ExpressionNode VisitCompileUnit(MathParser.CompileUnitContext context)
    {
        return Visit(context.expr());
    }

    public override ExpressionNode VisitNumberExpr(MathParser.NumberExprContext context)
    {
        return new NumberNode
        {
            Value = double.Parse(context.value.Text, NumberStyles.AllowDecimalPoint | NumberStyles.AllowExponent)
        };
    }

    public override ExpressionNode VisitParensExpr(MathParser.ParensExprContext context)
    {
        return Visit(context.expr());
    }

    public override ExpressionNode VisitInfixExpr(MathParser.InfixExprContext context)
    {
        InfixExpressionNode node;

        switch (context.op.Type)
        {
            case MathLexer.OP_ADD:
                node = new AdditionNode();
                break;

            case MathLexer.OP_SUB:
                node = new SubtractionNode();
                break;

            case MathLexer.OP_MUL:
                node = new MultiplicationNode();
                break;

            case MathLexer.OP_DIV:
                node = new DivisionNode();
                break;

            default:
                throw new NotSupportedException();
        }

        node.Left = Visit(context.left);
        node.Right = Visit(context.right);

        return node;
    }

    public override ExpressionNode VisitUnaryExpr(MathParser.UnaryExprContext context)
    {
        switch (context.op.Type)
        {
            case MathLexer.OP_ADD:
                return Visit(context.expr());

            case MathLexer.OP_SUB:
                return new NegateNode
                {
                    InnerNode = Visit(context.expr())
                };

            default:
                throw new NotSupportedException();
        }
    }

    public override ExpressionNode VisitFuncExpr(MathParser.FuncExprContext context)
    {
        var functionName = context.func.Text;

        var func = typeof(Math)
            .GetMethods(BindingFlags.Public | BindingFlags.Static)
            .Where(m => m.ReturnType == typeof(double))
            .Where(m => m.GetParameters().Select(p => p.ParameterType).SequenceEqual(new[] { typeof(double) }))
            .FirstOrDefault(m => m.Name.Equals(functionName, StringComparison.OrdinalIgnoreCase));

        if (func == null)
            throw new NotSupportedException(string.Format("Function {0} is not supported", functionName));

        return new FunctionNode
        {
            Function = (Func<double, double>)func.CreateDelegate(typeof(Func<double, double>)),
            Argument = Visit(context.expr())
        };
    }
}

как вы можете видеть, это просто вопрос создания узла AST из узла CST с помощью посетителя. Код должен быть довольно понятным (ну, может быть, за исключением VisitFuncExpr материал, но это просто быстрый способ подключить делегата к подходящему методу System.Math класс).

и здесь у вас есть строительные материалы AST. Это все, что нужно. Просто извлеките соответствующую информацию из CST и сохраните ее в АСТ.

посетитель AST

теперь давайте немного поиграем с AST. Нам придется построить базовый класс посетителей AST, чтобы пройти его. Давайте просто сделаем что-то похожее на AbstractParseTreeVisitor<T> предоставлено ANTLR.

internal abstract class AstVisitor<T>
{
    public abstract T Visit(AdditionNode node);
    public abstract T Visit(SubtractionNode node);
    public abstract T Visit(MultiplicationNode node);
    public abstract T Visit(DivisionNode node);
    public abstract T Visit(NegateNode node);
    public abstract T Visit(FunctionNode node);
    public abstract T Visit(NumberNode node);

    public T Visit(ExpressionNode node)
    {
        return Visit((dynamic)node);
    }
}

здесь я воспользовался C# ' S dynamic ключевое слово для выполнения двойной отправки в одной строке кода. В Java вам придется сделать проводку самостоятельно с последовательностью if подобные заявления:

if (node is AdditionNode) {
    return Visit((AdditionNode)node);
} else if (node is SubtractionNode) {
    return Visit((SubtractionNode)node);
} else if ...

но я просто пошел для ярлыка для этого примера.

работа с AST

Итак, что мы можем сделать с деревом математических выражений? Оцените его, конечно! Реализуем вычислитель выражений:

internal class EvaluateExpressionVisitor : AstVisitor<double>
{
    public override double Visit(AdditionNode node)
    {
        return Visit(node.Left) + Visit(node.Right);
    }

    public override double Visit(SubtractionNode node)
    {
        return Visit(node.Left) - Visit(node.Right);
    }

    public override double Visit(MultiplicationNode node)
    {
        return Visit(node.Left) * Visit(node.Right);
    }

    public override double Visit(DivisionNode node)
    {
        return Visit(node.Left) / Visit(node.Right);
    }

    public override double Visit(NegateNode node)
    {
        return -Visit(node.InnerNode);
    }

    public override double Visit(FunctionNode node)
    {
        return node.Function(Visit(node.Argument));
    }

    public override double Visit(NumberNode node)
    {
        return node.Value;
    }
}

довольно просто, когда у нас есть АСТ, не так ли?

все вместе

и последнее, но не менее важное: мы должны написать основную программу:

internal class Program
{
    private static void Main()
    {
        while (true)
        {
            Console.Write("> ");
            var exprText = Console.ReadLine();

            if (string.IsNullOrWhiteSpace(exprText))
                break;

            var inputStream = new AntlrInputStream(new StringReader(exprText));
            var lexer = new MathLexer(inputStream);
            var tokenStream = new CommonTokenStream(lexer);
            var parser = new MathParser(tokenStream);

            try
            {
                var cst = parser.compileUnit();
                var ast = new BuildAstVisitor().VisitCompileUnit(cst);
                var value = new EvaluateExpressionVisitor().Visit(ast);

                Console.WriteLine("= {0}", value);
            }
            catch (Exception ex)
            {
                Console.WriteLine(ex.Message);
            }

            Console.WriteLine();
        }
    }
}

и теперь мы можем, наконец, играть с это:

enter image description here

автор: Julian · Accepted Answer · 2016-06-27 11:29:18

Я создал небольшой проект Java, который позволяет вам мгновенно протестировать грамматику ANTLR, скомпилировав лексер и парсер, сгенерированные ANTLR в памяти. Вы можете просто проанализировать строку, передав ее синтаксическому анализатору, и он автоматически создаст из нее AST, который затем может быть использован в вашем приложении.

для уменьшения размера AST вы можете использовать NodeFilter, к которому вы можете добавить имена производственных правил не-терминалов, которые вы хотели бы учитываться при построении АСТ.

кодекс и некоторые примеры кода можно найти на https://github.com/julianthome/inmemantlr

надеюсь, что инструмент полезен ; -)