如何编写一个简单的聊天机器人人工智能程序?

33

我想构建一个机器人,向某人询问几个简单的问题,并根据回答进行分支。我意识到从人类回答中解析意义将是具有挑战性的,但是如何设置程序以处理对话的"状态"?

这将是人与机器人之间的一对一对话。


4
我并不完全相信现有的聊天机器人有所谓的"状态(state)"。它们的回答似乎仅取决于你最后一次提出的问题。对于人类而言,连续提出相关问题只是巧合。 - Tim Frey
5
有些机器人会有状态,我自己曾经做过这样的一个。它是使用神经网络对抗知识库的解析机器人。 - malach
https://www.hubtype.com/products/chatbots.html 可能是你正在寻找的。 - Eric Marcos
11个回答

24
您可能想要了解马尔科夫链作为机器人AI基础知识。我曾经写过一些代码(对此我感到非常不自豪,需要一些修改才能在Python>1.5上运行),这可能是您有用的起点: http://sourceforge.net/projects/benzo/ 编辑:这里是一个在Python中最简单的马尔可夫链示例,它从stdin接受输入,并根据输入中单词相互成功的概率输出文本。 它针对IRC样式的聊天记录进行了优化,但运行任何足够大的文本都应该演示这些概念:
import random, sys

NONWORD = "\n"
STARTKEY = NONWORD, NONWORD
MAXGEN=1000

class MarkovChainer(object):
    def __init__(self):
        self.state = dict()

    def input(self, input):
        word1, word2 = STARTKEY
        for word3 in input.split():
            self.state.setdefault((word1, word2), list()).append(word3)
            word1, word2 = word2, word3 
        self.state.setdefault((word1, word2), list()).append(NONWORD)

    def output(self):
        output = list()
        word1, word2 = STARTKEY
        for i in range(MAXGEN):
            word3 = random.choice(self.state[(word1,word2)])
            if word3 == NONWORD: break
            output.append(word3)
            word1, word2 = word2, word3
        return " ".join(output)

if __name__ == "__main__":
    c = MarkovChainer()
    c.input(sys.stdin.read())
    print c.output()

从这里开始插入持久化和IRC库非常容易,这样你就可以拥有所谓的机器人的基础了。

14

一些人已经提到过,对于典型的聊天机器人来说,状态并不是一个重要组成部分:

  • 一个纯马尔可夫模型的实现可能会在实时增加词汇和表格时表达出一种非常宽松的状态——人类对话者之前的话语可能会在后面的对话中偶然地被重复使用——但马尔可夫模型没有任何固有的机制来选择或产生这样的回应。

  • 基于解析的机器人(例如ELIZA)通常试图响应用户最近输入的(某些)语义内容,而不太考虑先前的交流。

尽管如此,您无论使用什么样的输入解析和语句合成模型,都可以向聊天机器人添加一些状态。如何做取决于您想通过状态实现什么目标,从您的问题中并不清楚。然而,有一些一般性的想法:

  • 创建关键字堆栈。当人类提供输入时,从他们的陈述/问题中解析出关键字,并将这些关键字放入某种堆栈中。当聊天机器人无法在最近的输入中想出令人信服的回应时——或者,也许只是为了混合一下——回到您的堆栈中,获取先前的关键字,并使用它来生成下一个语句。为获得额外加分,让机器人明确地承认它正在回到之前的主题上,例如“等一下,HUMAN,您之前提到过foo。[由foo引发的句子]”。

  • 将类似RPG的对话逻辑构建到机器人中。当解析人类输入时,切换特定对话提示或用户内容的标志,并有条件地改变聊天机器人可以谈论的内容或通信方式。例如,一个在污言秽语上发怒(或责骂、或笑)的聊天机器人相当普遍;一个会变得激动,并且有条件地一直保持这种状态直到道歉为止的聊天机器人,将是这种状态的有趣变化。切换输出到全大写,加入对抗性修辞或要求或哭泣等。

你能进一步澄清一下你希望使用这种状态来达到什么目的吗?


5
想象一下一个神经网络,在每个节点或神经元中都有解析能力。根据规则和解析结果,神经元会发射信号。如果某些神经元发射信号,你就可以很好地了解问题的主题和语义,因此可以给出一个好的答案。
记忆是通过保留在会话中讨论的主题,为下一个问题增加发射信号,并因此引导最终可能答案的选择过程来完成的。
将规则和模式存储在知识库中,但在启动时将它们编译到内存中,每个规则对应一个神经元。您可以使用类似监听器或事件函数的东西来设计突触。

嗨 Ralph,我很欣赏你的要点; 我自己也想到了类似的方法,更简单地说,每个“神经元”都是一个有限状态机,具有狭窄的域模式匹配。 代号:naif。 即将推出:https://twitter.com/solyarisoftware/status/792258290591858688 - Giorgio Robino

3
我认为你可以查看Kooky的代码,如果我没记错的话,它也使用了马尔可夫链。
另外,还要看看kooky quotes,它们不久前被Coding Horror推荐过,其中一些非常有趣。

2
我认为开始这个项目之前,最好有一个问题数据库(按树形结构组织,每个节点有一个或多个问题)。这些问题应该只能用“是”或“否”回答。
如果机器人开始提问,它可以从你的问题数据库中标记为起始问题的任何问题开始。答案是进入树中下一个节点的方式。
编辑:这里有一个用Ruby编写的简单示例供您参考:rubyBOT

1
一个简单的聊天机器人程序。没有解析,没有技巧,只有一个训练文件和输出。
它首先在文本上进行自我训练,然后使用训练数据生成对话者输入的响应。训练过程创建了一个字典,其中每个键都是一个单词,值是该单词在训练文本中顺序后面出现的所有单词列表。如果一个单词在该列表中出现多次,则反映出来并且更可能被机器人选择,无需概率性的东西,只需用列表即可。
机器人从你的输入中选择一个随机单词,并通过选择另一个已知是其持有单词的后继单词来生成响应。然后它通过依次找到该单词的后继单词并迭代下去来重复该过程,直到它认为已经说够了。它通过在训练文本中停在标点符号之前的单词来得出这个结论。然后它再次返回输入模式让你回复,依此类推。
这并不是非常现实,但我在此挑战任何人用71行代码做得更好!! 这对于任何初学Python的人来说都是一个很好的挑战,我只希望我能够将挑战开放给比我博客上访问量更多的人。编写一个始终保证语法正确的机器人肯定需要几百行代码,我通过仅尝试想出最简单的规则,大大简化了问题,使计算机有点东西可说。它的回答至少可以说是印象主义的!同时,你必须用单引号来表达自己的话。
我使用《战争与和平》作为我的“语料库”,训练运行需要几个小时,如果你不耐烦,可以使用更短的文件...
以下是训练程序。
#lukebot-trainer.py
import pickle
b=open('war&peace.txt')
text=[]
for line in b:
    for word in line.split():
        text.append (word)
b.close()
textset=list(set(text))
follow={}
for l in range(len(textset)):
    working=[]
    check=textset[l]
    for w in range(len(text)-1):
        if check==text[w] and text[w][-1] not in '(),.?!':
            working.append(str(text[w+1]))
    follow[check]=working
a=open('lexicon-luke','wb')
pickle.dump(follow,a,2)
a.close()

这是一个机器人。
#lukebot.py
import pickle,random
a=open('lexicon-luke','rb')
successorlist=pickle.load(a)
a.close()
def nextword(a):
    if a in successorlist:
        return random.choice(successorlist[a])
    else:
        return 'the'
speech=''
while speech!='quit':
    speech=raw_input('>')
    s=random.choice(speech.split())
    response=''
    while True:
        neword=nextword(s)
        response+=' '+neword
        s=neword
        if neword[-1] in ',?!.':
            break
    print response

当它说出似乎部分有意义的话时,您往往会产生神秘的感觉。

0

0
如果你只是涉猎一下,我相信Pidgin可以让你编写聊天式的脚本行为。框架的一部分可能会追踪消息发送者和时间的状态,并且你需要为你的机器人保留每个最近N条消息的内部状态日志。未来的状态决策可以根据之前的状态检查和最近几条消息的内容进行硬编码。或者你可以像讨论过的马尔可夫链那样,既用于解析又用于生成。

0
我建议您查看贝叶斯概率。然后只需在一段时间内监控聊天室,以创建您的概率树。

0

我不确定这是否符合您的要求,但有一个叫做ELIZA的老程序,它可以通过进行一些简单的文本转换来保持对话。

如果我没记错的话,许多人都相信他们正在与真人交谈,并与之展开了长时间的复杂对话。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接