从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

推荐会员: 点金大数据发布时间: 2017-10-20 23:12 阅读次数: 5,234 views

“道生一，一生二，二生三，三生万物”—《道德经》

1923年,爱因斯坦在他的诺贝尔得奖感言中说到：“我欲探索一个统整理论的理智思维,是无法满足于存在有两个本质彼此完全独立的领域之假设”。这句话有点拗口，主要意思是，爱因斯坦认为自然科学中“统一”的概念或许是一个最基本的法则。后来直到去世，爱因斯坦都在致力于寻求一种能将引力场与电磁场，相对论与量子论统一起来的统一场理论。后来霍金在《时间简史》中也指出了大统一理论的可能性，他认为也许会发现大统一理论。虽然迄今为止统一场论都尚未得到发现验证，但对常人的理解来讲，通过一个简单美妙的公式就能预测和描述宇宙万事万物，不异于天方夜谭。

同样，在人工智能领域，要真正实现专家们口中的超人工智能（SuperAI），也还有极漫长的路要走。有没有一种终极算法，能让人类一步到位设计出超人类的AI系统？这跟爱因斯坦提出的统一场论一样，还面临着理论与设计实现的巨大挑战。今年LeCun（FaceBook AI实验室负责人）曾说到：“绝大多数人类和动物的学习方式是非监督学习。如果智能是个蛋糕，非监督学习才是蛋糕主体，监督学习只能说是蛋糕上的糖霜奶油，而强化学习只是蛋糕上点缀的樱桃。现在我们知道如何制作“糖霜奶油”和上面的“樱桃”，但并不知道如何制作蛋糕主体。我们必须先解决关于非监督学习的问题，才能开始考虑如何做出一个真正的AI。这还仅仅是我们所知的难题之一。更何况那些我们未知的难题呢？”正如LeCun所说，未来解码人类学习方式的关键突破性技术，很可能会由无监督学习来完成，因为无监督才是人类和动物学习的关键模式，婴幼儿通过少量有监督学习训练之后，在后续几十年的成长过程中，能够观察并发现世界的内在结构和获得经验知识，都是一种无监督的自发主动的学习模式，而不是像小时候被父母告知每项事物的名称和意义。要攻破无监督学习这座AI堡垒，貌似在短期内不可能。但就在昨天，Nature发布了Deepmind关于阿尔法狗元（AlphaGoZero）的文章，在科技圈引起了不小轰动，貌似LeCun口中的“樱桃”（强化学习）大放异彩，使得AI向无监督自我学习进化又迈出了一大步。本文就来谈谈，要实现SuperAI和终极算法的可能性，兼论阿尔法狗元从0到1的重大意义，貌似开了一个好头。

1 阿尔法狗元(AlphaGo Zero)的横空出世

最近几年，人工智能的研究和应用，从语音识别、图像分类到基因组学和药物发现等多个领域取得了快速进展。这得益于大数据和深度学习的有力支持。可以这么讲，这波AI大跃进多是数据驱动的AI，没有大数据的喂养，没有GPU算力的普及化，就没有深度学习的成功。数据驱动的AI离不开大数据，大数据与AI形成一种共生关系：一方面，AI基础理论技术的发展为大数据机器学习和数据挖掘提供了更丰富的模型和算法，如深度网络衍生出的一系列相关技术（深度学习、强化学习、迁移学习、对抗学习等）和方法；另一方面，大数据为AI的发展提供了新的动力和燃料，数据规模大了之后，传统机器学习算法面临巨大挑战，要做并行化、要加速、要改进。当前的弱AI应用都遵从这一技术路线，大数据、深度学习和GPU计算居功至伟。然而，这些利用了大量人力、物力资源和海量数据的AI系统。却很难扩展到通用AI的程度，更不必说超AI了，比如ImageNet的上千万张图片训练出的AI系统，却无法对医疗和自动驾驶领域产生同样重大的作用。需要另起炉灶，重新花大量人力物力进行针对性的数据标注和AI系统建设。类似这些问题，对人类历史经验数据太过依赖，而这种大数据知识成本昂贵，或不可靠，或根本无法使用。因此，Super AI的研究必须要能绕过大数据，通过解码人脑智能学习机理，才能创造出一种终极算法。而阿尔狗元的横空出世，向我们展现了迈向这一目标的可能性。不需要上百万盘历史棋谱数据，仅训练3天（自己左右互搏490万棋局），只需要4片TPU就战胜了旧版AlphaGo 系统，而比分是100：0；旧版阿尔法狗采用了48片TPU，需要花几个月学习几千万盘棋局才完全战胜人类。以致于柯洁面对新版的阿尔法狗元，发表了如下无力吐槽。

2 阿尔法狗元的智能解码

阿尔狗元为什么能在如此短的时间，有如此惊人的进步？下面我们来分析下新版阿尔法狗元的智能“级数”。关于智能，古今中外许多哲学家、脑科学家都一直在努力探索和研究，但至今仍然没有完全了解，可以说理解甚少。所以有，智能的发生与物质的本质、宇宙的起源、生命的本质一起被列为自然界四大奥秘。随着脑科学、神经心理学等研究的进展，我们对人脑的结构和功能有了初步认识，但对整个神经系统的内部结构和作用机制，特别是大脑的功能原理却知之甚少。在这样一个大背景下，深度学习的阶段性成功，可谓是误打误撞。深度学习也被很多专家称为类脑学习，其实不够严谨，最多算是类人脑视觉皮层学习，简单的神经元连接结构离完全模拟人脑还差十万八千里。但换个角度看，才入门就有了奇效？解码人脑的学习记忆机制才能设计出终极算法么？这个答案仁者见仁智者见智，且看后文分解。

旧版AlphaGo采用的核心技术笔者在前文《阿尔法狗（AlphaGo）彻底战胜人类意味着什么》中有简要分析，基于深度学习+强化学习+蒙特卡洛树决策的组合式学习方法（或者说学习框架）可以说摸到了类脑学习的大门，其学习下棋分为三个阶段：（１）通过对历史棋谱的深度学习完成策略网络的构建，采用深度学习技术训练一种有监督学习型走棋策略网络，类似于我们的观察学习获得的第一反应。（２）通过自我对战强化学习来提高博弈水平，采用强化学习技术来优化先前的走棋策略网络，通过自我博弈的强化学习迭代结果，来提升前面的策略网络。即与之前的“自己”不间断训练以提高下棋的水平，这个过程有点类似于人类的巩固学习和理解贯通阶段。（３）通过深度回归学习构建估值网络，用来预测自我博弈强化学习数据集里局面的预期结果，即预测那个策略网络的局面会成为赢家。结合蒙特卡洛树（MCTS）搜索压缩搜索空间，降低了搜索时间复杂度， MCTS决策有效结合了策略网络和估值网络，类似于人类的判断决策过程。而新版的AlphaGo Zero做了较大改进，一是跳过了第一个阶段，完全抛弃了历史棋谱的学习，训练学习从无到有；二是改进了原强化学习的形式，只使用一个神经网络而不是两个神经网络，通过将这个神经网络与MCTS搜索算法相结合，通过左右互搏自娱自乐，按设定的走棋规则随机开始围棋小白式的学习，靠激励、惩罚的强化学习机制来纠正学习过程中的错误，调整提升学习能力。这种机制在一定程度上讲有些类似无监督学习了，摆脱了对人类标注数据的依赖（历史棋谱）。这也是为什么阿尔法狗元能以100:0战胜旧版阿尔法狗的原因，只靠模仿和师傅教是很难在较短时间内超越师傅的，而周伯通能成为武林顶尖高手，就是因为他的武功只靠原创从不模仿。

DeepMind AlphaGo项目首席研究员大卫.西尔弗（David Silver，左）与CEO德米斯.哈比斯（Demis Hassabis）

有点扯远了。回到正题，对于阿尔法狗元，我们先提两个问题：（1）阿尔法狗元既然能有如此进步，为什么创始人在原来没有想到？（2）阿尔法狗元还有一个梗，使其还有较大的智能瓶颈，这个瓶颈是什么？第一个问题很好理解，阿尔法狗的创始人哈比斯（如上图）从小就是围棋迷，围棋迷是很难说跳出围棋看围棋的，所以他设计的系统首先是对历史棋谱进行有监督训练学习，通过吸收人类棋谱数据中的经验学习下棋，观看数千场比赛，并被告知人类专家在某些位置上的特定动作，这也是一般人成为武林高手的必经之路。而David Silver提出的改进版AlphaGo Zero使用了一种新的强化学习形式，跳出围棋历史经验来下棋，在这一过程中，全靠自学。采用一个对围棋一无所知的神经网络，它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来，然后用它来选择下一个动作。在每场对弈结束后，AlphaGo Zero实际上都训练了一个新的神经网络，这种无师自通的学习方式能加速学习能力的迭代，所以才有如此成绩。针对第二个问题，显然AlphaGo Zero这种不参考专业数据和历史经验的学习方式，消除了人类学习依靠历史经验和知识的局限性（仅限于历史数据，下棋规则本身还是一种有监督学习，高效的下棋规则算法实现是AlphaGo Zero的核心优势），未来即使是弱AI，形势一定比人强，理论上讲，任何可以明确定义规则和设定目标的问题或工作都能被AI取代，唯一的瓶颈就是这个规则，如何有效地定义规则和目标？围棋的走法貌似随意但却有通用规则，棋盘格局对于残差卷积模块来讲也很友好，其实这个改进思想跟采用GAN自我对战打游戏是类似的（OpenAI已经开发出了一款AI，可以在没有任何人工输入的情况下，自学如何玩电脑游戏）。我们看不管是下棋还是玩游戏，都有容易形式化的规则，而人类的大部分工作，特别是在数字化、信息化的大背景下，未来被AI替代很可能是分分钟的事情，如翻译、交易、驾驶、会计、审计等等。但对需要多方博弈决策方面的事务来讲，这种级别的AI还是无能为力的，当然也还谈不上类脑智能。

3 终极算法:统一场论的AI版

要实现真正的AI，是否需要一种终极算法？在笔者看来，爱因斯坦的统一场论是为了解码宇宙客观事物运行的本质规律；而终极算法就是为了解码人类智能的本体、本源和统一机理。靠一系列面向特定任务的算法和庞大子系统进行组合形成的智能体，当然可以在一定程度上具有智能，但要达到通用AI、超AI的水平，个人认为这条路不可行。首先我们看下传统算法、机器学习算法和终极算法三者的区别：（1）传统算法：将数据输入到计算机，计算机利用设计好的算法来进行计算处理，最终输出需要的结果，比如金融自动交易，需要设计算法实现交易公式、规则的计算，输入数据按照设计好的规则进行计算处理和结果输出；（2）机器学习：机器学习算法不需要通过编程设定计算规则，而是把数据直接输入到模型中（包括输入数据和标签输出数据），模型经过训练获得预测优化的参数，最终构建好具有一定预测能力和稳定性的机器学习模型；（3）终极算法：终极算法的一个前提假设是，所有知识，无论是过去、现在还是未来的，都有可能通过单个通用学习算法来从数据或环境中获得，这种算法称为终极算法。机器学习算法的首要任务是区别可以预测的事与不可预测的事。终极算法的目标则是学习一切能够认知的东西，在机器学习中，复杂性存在于数据中，而终极算法要做的就是通过拟合数据或抛开数据和环境交互来消化理解这种复杂性。

几十年来，机器学习算法研究的五大门派（如上图）一直以来都在彼此争夺主导权。 (1)符号派：使用符号、规则和逻辑来表征知识和进行逻辑推理，最喜欢的算法是：规则和决策树。(2)贝叶斯派：获取发生的可能性来进行概率推理，最喜欢的算法是：朴素贝叶斯或马尔可夫。(3)进化派：生成变化，然后为特定目标获取其中最优的，最喜欢的算法是：遗传算法。(4)类推派：根据约束条件来优化函数（尽可能走到更高，但同时不要离开道路），最喜欢的算法是：支持向量机。(5)联结派：使用概率矩阵和加权神经元来动态地识别和归纳模式，最喜欢的算法是：神经网络。上述传统算法和各大门派的机器学习算法需要人类知识、规则、经验和数据的支持，是一种归纳和演绎学习的范畴，这种学习受限于数据本身，即使是大数据也不能全样本覆盖，而且包含各种噪音、错误或有偏见的数据，这样使得学习出来的模型也很难是最优的。而终极算法要能进行自我创造和学习，根据学习目标去自我创造样本、自我学习来加深对事物的理解从而获得学习能力，这才是真正的智能。能否实现终极算法，怎么实现终极算法，下面从阿尔狗元的强化学习、人类大脑新皮层的学习机理和深度学习网络三个方面的融合来进行探讨分析。

4 终极算法的可能性?类脑学习的启示

人脑由一千多亿个神经细胞（神经元）交织在一起的网状结构组成，其中大脑皮层约140亿个神经元，小脑皮层约1000亿个神经元。神经元约有1000种类型，每个神经元大约与100个其他神经元相连接，形成极为错综复杂而又灵活多变的神经网络。人的智能行为就是由如此高度复杂的组织产生的。浩瀚的宇宙中，也许只有包含数千忆颗星球的银河系的复杂性能够与大脑相比。很多学科的研究人员试着从不同角度解码人脑的智能，人工智能从一开始就试图模拟、延伸和扩展人类智能，但迄今为止大部分AI研究成果还仅仅只能从行为上模拟部分智能。如何从更深入的机制上探索智能的本质及其计算实现的机理，是神经计算与类脑学习面临的主要挑战。对未来终极算法的设计实现，笔者认为有三种重要的类脑学习方法，也许能给我们一些启示。

（1）大脑新皮层

Jeff Hawkins在其2004年出版的著作《On Intelligence》中,提出了一种大脑皮层运作的记忆-预测框架。阐述了大脑皮层框架运作的核心原理,提出了一种新皮层的理论，用以建立一种基于空间-时间记忆流模式的智能预测架构,而且设计实现了分层皮质学习算法（HTM）。Jeff Hawkins的大脑皮层理论框架与算法，目标很宏大，直指人类学习的终极算法。其中有几个主要理论值得与大家分享：

a.“大脑新皮层是一个分层的架构。在分层中的每一层或者区域，又是由密集包裹着的细胞组成的多个层。当感知信息到达大脑新皮层时，它穿过了分层架构中的各个层。在这些区域的细胞变得活跃，逐步对输入进行抽象，得到不变的特征。然而，在架构的最底层的细胞对输入的简单的特征做出了最优的反应，离架构顶层最近的细胞则对高层次的概念做出反映，比如对外表、语言、动作等。”—这跟当前深度网络的逐层学习思想是一致的。

b.“令人吃惊的是，在大脑新皮层中的区域，无论它们驻扎在什么地方，无论它们处理什么类型的感知信息，它们几乎都相同的结构。视觉区域类似于听觉区域，也类似于语言区域。大脑新皮层完全使用了通用的机制。通过了解这些机制，我们能够模拟它们，并将它们应用运用到学习、推理、预测等多种问题中。尽管基于HTM理论还无法捕捉到大脑新皮层完整的复杂结构及学习机制，但是它已经足够强大到来解决一些困难且有商业价值的问题了。”—这点也许能解释为什么深度学习能如此有效？

c.“HTM是一个记忆系统，随着时间变化，它通过给它的感知数据来学习它的世界，并从数据中抽象出高层的概念。抽象允许HTM网络来进行一般化(generalize)，并对于传统计算机编程处理的严格规则提供灵活性和效率。例如，在不完整或是模糊不清的数据呈现中，模式能够被学习并识别出来。通过组合模式学列的记忆与当前的输入，HTM网络能够预测下一步可能发生什么。反过来，这种预测能够使用在从猜测可能的结果到检测欺诈等一系列的认知活动中。”—这点出了深度学习未来的潜力，特别是跟记忆的融合

可以看出Jeff Hawkins在13年前就提出的大脑新皮层理论框架，与当今大火的深度学习有着异曲同工之妙。不过在具体算法实现上与深度网络有较大差异，不过整套理论的核心思想就是要实现解码智能的终极算法，潜力如何还有待观察。

（2）深度学习与强化学习

深度学习专家们讲得比较多，我就不赘述了。值得一提的是，深度学习的类脑模拟研究还很初级，神经计算和深度学习的交叉融合其实还远没有开始。深度学习的加层机制来源于对人类大脑视觉分层处理的理解，而原人工神经网络也只是很初级的模拟了人脑神经元的连接和激活。人脑实现学习、记忆、推理、情感等能力的生化神经网络运行原理我们根本都还知之甚少，但是，深度学习加减层、加减神经元、加减链接、跨层跨连接等这些简单的网络构建方法却是跟人脑的运行机制有类似的地方，幼儿到成人神经元数量在增加、学习和记忆能力提升是神经元之间链接的建立和加强，而能力衰退也对应于神经元链接的断裂等等…，

可以说，深度学习在借鉴大脑神经网络原理和人类认知过程方面，也许还没入门，还有很多问题需要深入挖掘和拓展。比如让Deepmind情有独钟的强化学习，与深度学习强强联合之后，在很多智能研究中大放异彩。强化学习的主要目的是帮助模型形成从环境到行为映射的学习，这种学习方法不是告诉系统如何产生正确的动作，而是通过评价产生动作的好坏来不断迭代改进学习能力，从而找到问题的最优解。而且强化学习在一定程度上能解决深度学习严重依赖大数据的问题。

总之，未来终极算法的诞生，可能是多种学习方式的深度交叉融合，机器的情感、记忆推理等高级智能，将会由基于深度特征学习和加装存储记忆、推理模块的迁移学习、强化学习、对抗学习等各种学习方式的交叉融合而实现，未来的机器学习方式可能远不只这几种，其本质都是在模仿人类的学习方式。迁移学习代表了我们的进化过程，学习的举一反三、触类旁通，强化学习、对抗学习类似周伯通左右互搏、无师自通等，以深度学习思想为主线的算法和框架技术栈将极大地拓展五大机器学习门派的功力。

5 展望

严格来讲，传统规则式AI系统还称不上智能，而现在的深度学习也只是大数据驱动的初级智能。以前我提过一个问题，未来有没有非数据驱动的终极智能？换句话说，如果没有大数据，除了专家系统和规则式AI，人工智能要通用化，要达到SuperAI的水平，能否有所突破？这取决于终极算法的能力。规则式AI更多靠人工内置的经验和知识驱动，它最大的问题也是要人工介入，而且很难具有学习能力，靠的知识、记忆和经验建立的规则体系，这种不能自学习的符号AI系统随着明斯基的去世，在逐步退出历史舞台。而强AI的目标是机器智能化、拟人化，机器要具有和人一样的能力，那就离不开记忆和经验，也离不开通过知识、经验和记忆建立起来的认知体系（经验规则、知识本体）。从这个角度讲，强AI要实现只靠深度学习、强化学习还不够，通过深度学习、强化学习进行环境基础知识的初步监督式指导学习或非监督自我体验学习，学习掌握的知识、经验必须要能存储和记忆，再结合大脑新皮层理论的时间-记忆流预测框架，在遇到新的问题之后，就能像人一样快速智能响应。这也许就是未来终极算法的融合诞生之路吧？

来源：点金大数据

点金大数据

从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

DeepMind AlphaGo项目首席研究员大卫.西尔弗（David Silver，左）与CEO德米斯.哈比斯（Demis Hassabis）

参考资料:

1 《终极算法》

2 《人工智能的未来》（On Intelligence）

3 David Silver,Julian Schrittwieser, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550: 354-359.

4 D. George, “How the Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition“,Ph.D Thesis, Stanford University, June 2008.

5 阿尔法狗（AlphaGo）彻底战胜人类意味着什么

6 《Defense of the Ancients》

7 谷歌AlphaGo AI日显强大可通过与自己对弈学习

8 深度学习的“深度”价值是什么？

从阿尔法狗元(AlphaGo Zero)的诞生看终极算法的可能性

DeepMind AlphaGo项目首席研究员大卫.西尔弗（David Silver，左）与CEO德米斯.哈比斯（Demis Hassabis）

参考资料:

1 《终极算法》

2 《人工智能的未来》（On Intelligence）

3 David Silver,Julian Schrittwieser, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550: 354-359.

4 D. George, “How the Brain Might Work: A Hierarchical and Temporal Model for Learning and Recognition“,Ph.D Thesis, Stanford University, June 2008.

5 阿尔法狗（AlphaGo）彻底战胜人类意味着什么

6 《Defense of the Ancients》

7 谷歌AlphaGo AI日显强大 可通过与自己对弈学习

8 深度学习的“深度”价值是什么？

7 谷歌AlphaGo AI日显强大可通过与自己对弈学习