这个问题困扰了我一段时间。我对递归下降解析器很感兴趣,想知道如何实现它。我想要的是一个简单的解析器,可以理解像“5+5”或“(5+5)*3”这样的简单算术表达式。
我认为第一步是编写一个“分词器”,将整个输入字符串拆成多个子字符串。这部分我已经完成了(我甚至不得不在此处询问过)。如果您不想跟随链接,因为我也在这里发布有关代码。使用我的此分词器,我最终会得到一个
我已经阅读了递归下降分析器的维基百科文章。我确实理解了总体概念,但是像往常一样,实现有点令人困惑。在那篇文章中,有一个非常简单的编程语言的递归下降分析器的C实现,也在文章中讨论过。我尽力研究了那段代码,并试图基本上为我的程序编写相同的内容。以下是该代码。
我真正困惑的是这个解析器的作用。它似乎会遍历程序并“期望”语法的某些部分。但是一旦到达那里,它会做什么呢?例如,这是维基百科代码中应该解析“项”的一个函数:
这是为了解析以下语法而设计的:
我认为第一步是编写一个“分词器”,将整个输入字符串拆成多个子字符串。这部分我已经完成了(我甚至不得不在此处询问过)。如果您不想跟随链接,因为我也在这里发布有关代码。使用我的此分词器,我最终会得到一个
vector
的string
或令牌。现在,难点来了:我想解析这些令牌。我已经阅读了递归下降分析器的维基百科文章。我确实理解了总体概念,但是像往常一样,实现有点令人困惑。在那篇文章中,有一个非常简单的编程语言的递归下降分析器的C实现,也在文章中讨论过。我尽力研究了那段代码,并试图基本上为我的程序编写相同的内容。以下是该代码。
我真正困惑的是这个解析器的作用。它似乎会遍历程序并“期望”语法的某些部分。但是一旦到达那里,它会做什么呢?例如,这是维基百科代码中应该解析“项”的一个函数:
void term(void) {
factor();
while (sym == times || sym == slash) {
getsym();
factor();
}
}
这是为了解析以下语法而设计的:
term = factor {("*"|"/") factor} .
这是有意义的。但它对实际术语做了什么呢?比如说,该术语只是“6”,或者是“3×2”,结果为6。它将如何将其合并到其余输入中?term()
不应返回double
而不是void
(以返回6)吗?还是用其他方法完成?
此外,使解析器像输出代码一样与立即处理输入(即编译器与解释器)之间有什么区别?在这个例子中,这两种方式是否理论上实现方式相同,还是根本不同?
欢迎任何意见。以下是我目前的代码:
#include <iostream>
#include <string>
#include <vector>
#include <ctype.h>
#include <sstream>
using namespace std;
vector<string> symbolize(string);
bool accept(string);
void getSymbol();
void error(string s);
bool expect(string);
void expression();
void term();
void factor();
int currentPosition = -1;
string symbol;
vector<string> symbols;
int main(int argc, const char * argv[])
{
string input;
getline(cin,input);
symbols = symbolize(input);
getSymbol();
expression();
return 0;
}
void factor(){
if(isdigit(symbol.c_str()[0])){}
else if(accept("(")){
expression();
expect(")");
}
else {
error("Syntax error");
}
}
void term(){
factor();
while(symbol=="*"||symbol=="/"){
getSymbol();
factor();
}
}
void expression(){
if(symbol == "+" || symbol == "-") getSymbol();
term();
while(symbol == "+" || symbol == "-"){
getSymbol();
term();
}
}
void error(string s){
cout << endl << "ERROR: " << s << endl;
}
void getSymbol(){
currentPosition++;
if(currentPosition>=symbols.size())error("Unexpectedly reached end of input");
}
bool expect(string s){
if(accept(s))return true;
else error("Expected '" + s + "'");
return false;
}
bool accept(string s){
if(s==symbol){getSymbol();return true;}
return false;
}
// Takes a string and breaks it into substrings
vector<string> symbolize(string input){
int position = 0;
char c;
//stringstream s;
vector<string> symbols;
enum symbolType {TEXT,OPERATOR}symbolType,charType;
while(position < input.size()){
stringstream s;
c = input.at(position);
if(isalnum(c))symbolType = TEXT;
else symbolType = OPERATOR;
charType = symbolType;
while(symbolType == charType){
s << c;
position++;
if(position>=input.length())break;
c = input.at(position);
if(isspace(c)||c=='\n'){position++; break;}
if(isalnum(c)) charType = TEXT;
else charType = OPERATOR;
}
symbols.push_back(s.str());
}
return symbols;
}
编辑:我应该提到,我的代码总是打印:错误:语法错误
,来自factor()
函数。