将一个NFA转换成正则表达式

Question

将一个NFA转换成正则表达式

regexnfa

5

我在这个网站上找到了一个相同的问题，答案是通过PDF描述如何将NFA转换为正则表达式来解决。但这种方法有一些条件限制，因此并不适用于所有情况:

从初始状态到所有其他状态都要有转换，而且没有任何转换进入初始状态。
只有一个仅有进入它（而没有向外转换）的接受状态。
接受状态与初始状态不同。
除了初始和接受状态之外，所有其他状态都通过转换连接到所有其他状态。特别地，每个状态都有到自身的转换。

在我的例子中，起始状态仅转移到下一个状态，而没有转移到所有状态（例如q0转移到q1，但不转移到q2、q3），同时还有转移进入起始状态。

那么，将NFA转换为正则表达式的最简单方法是什么？我没有给出具体的NFA示例，因为这只是一个普遍的问题。在我的DFA中，起始状态与所有状态都不相连，而且有转移进入起始状态。

我希望得到一个通用的算法来转换这种类型的NFA。

- Dr. Programmer

这个转换算法在Ullman的自动机书中有描述。 - alinsoar

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- justhalf · Accepted Answer

答案假设这些条件，因为任何NFA都可以修改以符合这些要求。

对于任何类型的NFA，您可以添加一个新的初始状态q₀，该状态具有到原始初始状态的epsilon转换，并且还使用称为∅的附加转换符号（他们称之为空集符号，假定为不与原始NFA中的任何符号匹配的符号）从它到任何其他状态，然后使用此新状态作为新的初始状态。请注意，这不会更改原始NFA接受的语言。这将使您的NFA满足第一个条件。

对于任何类型的NFA，您可以添加一个新的接受状态q_a，该状态从原始NFA中的所有接受状态进行epsilon转换。然后将其标记为唯一的接受状态。请注意，这不会更改原始NFA接受的语言。这将使您的NFA满足第二个条件。

通过上述构造，通过设置q₀！= q_a，它满足第三个条件。

在您提供的链接中，第四个条件是通过具有称为∅（空集符号）的特殊转换符号来解释的，其中没有来自原始NFA的实际字母表可以匹配。因此，您可以添加使用此新符号的转换，从每个状态到任何其他状态。请注意，这不会更改原始NFA接受的语言。

因此，现在已修改NFA以满足四个要求，您可以将算法应用于将NFA转换为正则表达式，该正则表达式将接受与原始NFA相同的语言。

编辑以回答进一步问题：

要回答您在评论中的问题，请考虑具有两个状态q_A和q_B的NFA。 q_A是初始状态，也是唯一的接受状态。我们有一个从q_A到自身的符号为0,1的转换。我们还有从q_A到q_B的符号为1的转换。最后，我们有从q_B到q_A的符号为0的转换。

可视化：

 0,1    
  |  1
->q_A----->q_B
  ^       |
  |-------|
     0

第二步。当我们规范化NFA时，只需将新的init状态（q_init）指向q_A，并从q_A添加一个新的接受状态（q_acc）。

第三步。我们希望删除q_A。因此，q_A是算法中的q_rip（在第3页）。现在我们需要考虑进入q_A的每个状态和从q_A出去的每个状态。在这种情况下，有两个指向q_A的状态，即q_init和q_B。有两个被q_A指向的状态，即q_B和q_acc。根据算法，我们用过渡符号R_dir+R_in(R_rip)*R_out替换过渡q_in->q_rip->q_out，其中：

R_dir是从q_in到q_out的原始转换
R_in是从q_in到q_rip的原始转换
R_rip是q_rip处的原始循环
R_out是从q_rip到q_out的原始转换

因此，在这种情况下，我们用过渡符号（0+1）*1将过渡q_init->q_A->q_B替换为q_init->q_B。继续这个过程，我们总共会创建4个新的转换：

q_init->q_B：（0+1）*1
q_init->q_acc：（0+1）*
q_B->q_B：0（0+1）*1
q_B->q_acc：0（0+1）*

然后我们可以删除q_A。

第四步。我们希望删除q_B。同样，我们确定q_in和q_out。这里只有一个状态进入q_B，即q_init，只有一个状态离开q_B，即q_acc。因此，我们有：

R_dir = (0+1)*
R_in = (0+1)*1
R_rip = 0(0+1)*1
R_out = 0(0+1)*

因此，新的转换 q_init->q_acc 将为:

R_dir+R_in(R_rip)*R_out

(0+1)* + (0+1)*1 (0(0+1)*1)* 0(0+1)*

我们可以删除 q_B。

第五步。由于原始 NFA 中的每个状态都已被删除，因此我们完成了。因此，上述是最终的正则表达式。

请注意，最终的正则表达式可能不是最优的（在大多数情况下，它不会是最优的），这是该算法所预期的。通常很难找到 NFA（甚至是 DFA）的最短正则表达式（尽管对于本例来说，很容易看出第一个组件已经涵盖了所有可能的字符串）

为了完整起见，接受相同语言的最短正则表达式将是:

(0+1)*