这也是生命中最美妙的东西,在满足好奇心的过程中,我们获得了快乐。人类了解一切,不是为了完成某一个目标,而仅仅是一种来自本能的冲动。
可人工智能所做的,只有根据既定目标进行学习、搜索和计算。扫地机器人会探索周围环境,可这不是因为好奇,而是为了建立房间中的SLAM以完成工作。这也是强人工智能不会出现的证据之一:人类自己都没弄明白“意识”为何会存在,更没法将“本能”加在人工智能头上。
不过在现有技术下,我们能否让人工智能做出类似好奇的行为呢?比如给予无意义的探索行为一些奖励,或者是把探索行为和完成工作相结合进行评分。
答案是可以。
好奇心帮助人工智能成为更棒的水管工
还记得我们第一次玩超级玛丽的时候吗?或许我们中很多人玩的都是小霸王学习机里的超级玛丽式英语学习软件。不管是什么,进入游戏的第一时间,我们通常都是试一试手柄上的每一个按键是做什么的,然后跳来跳去,尝试触碰游戏里的每一个小方块。这就是好奇心最基本的表现。
那么人工智能在玩超级玛丽时是怎样的呢?通常情况下是应用了增强学习算法,用正负反馈机制帮助人工智能快速通关。踩死一只乌龟,获得正向反馈,掉入悬崖,获得反向反馈。问题时,只要能够继续过关,人工智能很难学会新的动作,这也就造成了遇到新的关卡时,人工智能常常需要耗费很大力气才能通过。
在一篇关于人工智能好奇心的论文中提到,人工智能利用传统的增强学习方法训练,在超级玛丽的游戏过程中,人工智能卡在了游戏的30%处,因为人工智能需要越过一个坑,而想要越过那个坑,需要15到20个特定顺序的按键操作。由于在坠落进坑里时已经获得了反向反馈,人工智能常常在坑的位置止步不前。
上述论文的作者,来自UC Berkeley的研究团队提出了一种新的思路,为人工智能加入了内部好奇心构型。以自监督的方式,预测自身行动会造成何种结果,并将这种算法称作自监督预测算法。
当外部反馈减少时,内部好奇心构型会激励人工智能通过探索环境去检验自我对于行动的预测。结果是,采取内部好奇心构型的人工智能不会盲目重复那些有正向反馈的动作,而是开始了解游戏环境,把握整体游戏进程。最终战胜了那个坑。
好奇心不仅会害死猫,还会让人工智能得多动症
接下来,在DeepMind计算机科学家Hester和德州大学奥斯汀分校的Peter Stone的研究中,同样的概念被进一步的具象化。
在强化学习的基础上,他们开发了一种名为TEXPLORE-VANIR的算法。和自监督预测算法不同的是,TEXPLORE-VANIR为人工智能设立了内部奖励机制,当人工智能探索环境时,即使这种行为对达到最终目标没有好处,人工智能也会因为减少了外部环境的未知性而获得来自内部的正向反馈。同时,在探索环境中发现了新事物时,人工智能也会获得正向反馈。
这么听起来,是不是很人类的好奇心非常相像了?
并且TEXPLORE-VANIR也让人工智能的好奇心不再止步于游戏中。在关于机器人工作的实验中,面临多项工作安排,TEXPLORE-VANIR算法能让机器人表现更好。原因是面临多项工作时,普通深度学习算法会让机器人不断重复某一项工作中的动作,因为机器人曾经在完成这一项工作时获得过正向反馈,当其他工作出现时,它还是会重复那些让自己获得过正向反馈的动作。这样一来,就会浪费很多时间。
当人类表现出过度好奇时,会有怎样的结果?最常见的,注意力无法集中,常常将手头的工作半途而废。同样,人工智能拥有好奇心后也会有同样的表现。搭载TEXPLORE-VANIR算法的机器人在一项给门开锁的任务上表现较差,就是常常因为好奇而去探索环境,导致任务完成的延迟。甚至有学者称,这是人工智能的“多动症”。
这样看来,如何平衡内部和外部的反馈将是如何让人工智能好奇心发挥作用的最大问题。
没有好奇心的人工智能只是机器?
我们更关心的是,让人工智能拥有好奇心这件事究竟有什么用?是为了他们在游戏中更好的打败我们?还是让他们在执行任务时分心而变得低效?或者说让他们更接近人类,可以更好的打败我们?
首先,好奇心会让人工智能在学习时更加高效。减少对外部环境反馈的依赖,意味着对已有数据的利用率更高。比如在机械手臂试图抓起物品时,常常是把可能抓起物品姿势都尝试一遍,直到把物品抓起来。对于人来说,这是根本不能接受的低效,可换到了一个充着电的机器上,似乎就没人在意了。可笑的是,人工智能本应该替人类完成重复劳作的工作,结果却是用更多的人工智能重复劳作,代替人类的重复劳作。可有了好奇心,人工智能可以先对环境、环境中的物体进行初步的了解,然后再加以行动,而不是无脑的用暴力穷举解决问题。
其次,好奇心可以让人工智能更好的适应现实应用环境,毕竟现实和游戏或者实验不一样,没人会为人工智能的每个动作打分。当缺少外部环境反馈时,好奇心驱使的内部反馈就可以发挥很大作用。只有可以自我驱动的AI,才能在真正意义上帮助到人类,发现那些我们在设立目标时没有发现的事,而不是像所有机器一样根据指令行动。
看到这里,是不是加重了对人工智能的恐惧?别担心,大多数有关好奇心的算法目前还都停留在实验阶段,一是上文提过的,由于无法平衡内部反馈和外部反馈,好奇心常常会降低人工智能的工作效率。毕竟100%的专注,是所有机器的优势。第二则是,传统深度学习的“萝卜加大棒”政策已经能满足当下很多人工智能的应用。暴力穷举虽然低效,但是十分有效。
但我们相信,不管以何种形式,未来的人工智能一定会出现类似好奇心的机制,在更了解这个世界的前提下,更好的服务人类。