顶[0] 分享评论[0] 编辑

阿尔法围棋

2010年，德米什·哈萨比斯等人在伦敦创建了“深度思维”公司，该公司开发出了“阿尔法围棋”软件。2015年，作为计算机深度学习代表的“阿尔法围棋”轻松战胜欧洲围棋冠军樊麾。

出处

阿尔法围棋（AlphaGo）出生在英国。2010年，德米什·哈萨比斯等人在伦敦创建了“深度思维”（DeepMind）公司，该公司开发出了“阿尔法围棋”软件。2014年，美国谷歌公司收购了“深度思维”，因此它现在也许可以算是美国籍。

成名

阿尔法围棋的成名是在今年1月。哈萨比斯等人在英国《自然》杂志上发文说，在英国围棋协会见证下，“阿尔法围棋”以5：0战胜欧洲围棋冠军、前中国职业棋手樊麾，成为第一个击败人类职业棋手的电脑程序。

系统

美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说：阿尔法围棋这个系统主要由几个部分组成：

1，走棋网络，给定当前局面，预测/采样下一步的走棋。

2，快速走子，目标和1一样，但在适当牺牲走棋质量的条件下，速度要比1快1000倍。

3，估值网络，给定当前局面，估计是白胜还是黑胜。

4，蒙特卡罗树搜索，把以上这3个部分连起来，形成一个完整的系统。

特点

“阿尔法围棋”的核心系统属于时下最火的基于神经网络的深度学习：模拟人脑神经网络，通过大量数据分析学习了3000万步的职业棋手棋谱，再通过增强学习的方法自我博弈，寻找比基础棋谱更多的打点来击败人类。

“阿尔法围棋”最大的特点是，它会自己学习!在战胜樊麾之前，“阿尔法围棋”已进行了超过3000万局的自我训练，不断提升自身棋力。

“阿尔法围棋”通过策略网络和价值网络来决定棋路，不去计算每一步的可能性，颇有人类棋手“我感觉这样会赢”的味道。

棋力

“阿尔法围棋”和樊麾之间的比赛发生在去年10月，只是由于论文发表的保密流程等原因才在今年宣布。虽然许多围棋高手研究比赛棋谱后认为，“阿尔法围棋”那时的棋力还无法与李世石相提并论，但几个月过去了，它可能又在针对性训练中大有进步。这也是现在许多人押注它会取胜的原因。

与“深蓝”区别

1997年，电脑“深蓝”战胜国际象棋世界冠军卡斯帕罗夫，震惊世界。“深蓝”是一个独特的硬件与软件的结合体，IBM公司专门制造的这台计算机浮点运算速率超过每秒100亿次，几乎能让相关软件穷举国际象棋的所有可能下法，“暴力”碾压人脑。比赛结束后，它就被拆解了。

而“阿尔法围棋”是一个人工智能软件，它可以运行在不同的硬件平台上。相关论文中说，它的“单机”版本用到48个CPU(中央处理器)，而还有一个分布式运算的版本，可同时用到多台计算机的1202个CPU，大大提升计算能力。

光就计算能力而言，现在普通电脑中的CPU就已经胜过了20年前的“深蓝”，更不用提“阿尔法围棋”所用的硬件了。但是围棋的变化也要远远超出国际象棋，有计算显示，围棋棋盘上可能出现的局面数量超过了已观察到宇宙中的原子数目，有“千古不同局”之说。

局限

“阿尔法围棋”现在只会下围棋，这也是当前许多人工智能都有的专业局限性。

人机大战

第一场

2016年3月9日，韩国围棋世界冠军李世石与人工智能程序“阿尔法围棋”的对抗赛在韩国首尔打响。在围棋人机大战首场比赛中，人工智能“阿尔法围棋”战胜韩国棋手李世石。

双方经过激战，李世石执黑186手中盘负谷歌AlphaGo，深蓝成功挑战国际象棋的20年后，机器人的历史进入新篇章。

第二场

2016年3月10日，在围棋人机大战第二场比赛中，人工智能“阿尔法围棋”战胜韩国棋手李世石，总比分以2：0领先。

比赛结束后，韩国棋手刘昌赫九段评价说：“‘阿尔法围棋’下了很多怪手，如果李世石按照自己的棋风果断地应对，他或许会赢。但是，李世石在很多局部战斗中，没有按自己的棋风果断下棋，好像他在心理上有所畏缩。看上去，‘阿尔法围棋’棋行有些弱，但是它判断形势和计算的能力很强。在官子阶段上，‘阿尔法围棋’占尽优势。”

李世石赛后会见记者时说：“让人吃惊的昨天已经领教了。今天从序盘开始，我一直没有领先过，‘阿尔法围棋’还没有被发现有特别的弱点。昨天对局后，我仍认为‘阿尔法围棋’也存在弱点，但今天我的想法有所改变，我完败而‘阿尔法围棋’完胜，它下得完美。”

人机大战11日休息一天，12日、13日将进行第3、4局比赛，14日再休息一天，15日双方举行第5盘比赛。本次比赛即使一方率先取得3胜，也要下满5盘。比赛采用中国规则，执黑一方贴7目半，各方用时为两小时，各3次60秒的读秒机会。

第三场

2016年3月12日，谷歌计算机围棋程序“阿尔法围棋”（AlphaGo）与韩国棋手李世石继续进行围棋人机大战，第三局比赛结束，李世石再次告负！至此，谷歌AlphaGo赢下五局三胜制比赛。

第四场

2016年3月13日中午12点，迎来“人机大战”第四场，此前韩国九段棋手李世石连败三场，五局系列赛提前告负。最后两局的意义，更多是为职业棋手的尊严，为测试、寻找的可能薄弱点而战。

在两小时布局时间用完之际，李世石出现“年度妙手”考验AlphaGo。AlphaGo陷入长考，并下出一步看似失误的棋。第78手让大家看到熟悉的李世石九段回来了。李世石越战越勇最终拿到首胜，扳回一局。

第五场

2016年3月15日中午12时人机大战第五场在韩国首尔进行，经过长达5个小时搏杀，李世石认输，最终李世石与AlphaGo总比分定格在1比4。

整个第五场比赛下得比较沉闷。到15点46分，李世石已进入到读秒阶段，AlphaGo还拥有19分钟，局势整体对AlphaGo有利。

到16点20分，李世石与AlphaGo的比赛进入到僵持阶段，彼此在棋盘的局部领域进行厮杀，局面变得复杂化。

到16点26分，AlphaGo进入到读秒阶段。

到16点47分，都进入到读秒阶段的AlphaGo和李世石继续在局面进行激烈战斗，但局面依然非常焦灼。

到17点02分，李世石最终认输。

对这次比赛的意义，德国人工智能研究中心的安德烈亚斯·登格尔说，从人工智能的角度看，“阿尔法围棋”胜出，将是证明深度学习技术潜力的有力证据。

然而，即便机器在各类智力游戏中击败人类，这也并不意味着机器与人拥有同样形式的智能，而只说明在某些功能上，机器做到了类似、甚至超过了人类。

获得荣誉九段称号

阿尔法围棋获得荣誉九段

北京时间3月15日，谷歌AlphaGo与韩国棋手李世石的比赛落下帷幕，最终比分定格为4:1。获胜后的AlphaGo也因此获得它有生以来的第一个荣誉。在赛后的发布会上，韩国棋院已经给“阿尔法围棋”颁发名誉九段证书。

本次人机大战吸引了全球无数人的关注，今天是AlphaGo与李世石的第五战，此前AlphaGo以3胜1负的战绩赢得比赛，但因双方此前约定打满五局，所以今天的比赛也算是李世石捍卫人类智慧的荣誉之战。

虽说在第四局比赛输给李世石，但阿尔法狗却得到另一收获。由于这场失利，它能够正式进入世界职业围棋选手排名。现在在世界职业围棋排名网站GoRatings.org上，阿尔法狗已是世界第四，仅次于中国柯洁、韩国朴永训以及日本井山裕太。而阿尔法狗这次击败的韩国棋手李世石则应该是位列世界第五。

4次人机大战

过去20年中，有4次人机大战给人们留下格外深刻的印象，也成为人工智能发展的绝佳注脚。

阿尔法围棋——有棋风的“深度思考者”

2016年1月，美国谷歌公司旗下的人工智能公司“深度思维”在《自然》杂志上报告说，该公司研发的“阿尔法围棋”人工智能程序2015年10月以5：0战胜欧洲围棋冠军樊麾，这是人工智能程序首次在不让子的情况下战胜人类围棋选手。

即将与“阿尔法围棋”对战的韩国棋手李世石表示，“阿尔法围棋”实力难与自己相争，自己将以4：1或者5：0取胜，如不出现失误，将100%获胜。

深蓝——蛮算的“硬汉”

1997年，美国IBM公司的“深蓝”超级计算机以2胜1负3平战胜了当时世界排名第一的国际象棋大师卡斯帕罗夫。“深蓝”的运算能力当时在全球超级计算机中居第259位，每秒可运算2亿步。

在今天看来，“深蓝”还算不上足够智能，主要依靠强大的计算能力穷举所有路数来选择最佳策略：“深蓝”靠硬算可以预判12步，卡斯帕罗夫可以预判10步，两者高下立现。

比赛中，第二局的完败让卡斯帕罗夫深受打击，他的斗志和体力在随后3局被拖垮，在决胜局中仅19步就宣布放弃。IBM拒绝了卡斯帕罗夫的再战请求，拆卸了“深蓝”。卡斯帕罗夫虽然后来多次挑战电脑战平，却无法找“深蓝”“复仇”，留下永久的遗憾。

德国人工智能研究中心负责人登格尔在接受新华社记者采访时说，“深蓝”是人工智能发展史上一个里程碑，但用卡斯帕罗夫的话说，它不会因为取得胜利而“感到喜悦”。

浪潮天梭——以一敌五的“铁人”

2006年，“浪潮杯”首届中国象棋人机大战中，5位中国象棋特级大师最终败在超级计算机浪潮天梭手下。中国人发明的这项充满东方智慧的模拟战争游戏，被中国超级计算机独占鳌头。

值得一提的是，浪潮天梭在比赛中，同时迎战柳大华、张强、汪洋、徐天红、朴风波5位大师。在2局制的博弈中，浪潮天梭以平均每步棋27秒的速度，每步66万亿次的棋位分析与检索能力，最终以11：9的总比分险胜。

比赛异常激烈。柳大华在两局之间中场休息时，直言“艰苦卓绝”。在这场高强度的消耗战中，电脑最终取胜的关键，被认为是其不知疲倦的稳定性。

张强也坦承：“输的原因主要在体力的过度消耗。以往和人比赛，到了最后时刻就是意志和心态的对决了，看谁能坚持到最后，谁能不犯错误。但是计算机没有这样的问题。”

从那场比赛开始，象棋软件蓬勃发展，人类棋手逐渐难以与之抗衡。

沃森——察言观色的全才“学霸”

2011年，“深蓝”的同门师弟“沃森”在美国老牌智力问答节目《危险边缘》中挑战两位人类冠军。《危险边缘》以答案的形式给出线索，如“小时候砍了樱桃树”，选手需要以问题作答，如“是乔治·华盛顿吗”。

参赛者需要大量历史、文学、政治、科学及流行文化知识，还需要解析隐晦含义和谜语等。虽然比赛时不能接入互联网搜索，但“沃森”存储了2亿页的数据，包括各种百科全书、词典、新闻、甚至维基百科的全部内容。

“沃森”可以在3秒内检索数百万条信息并以人类语言输出答案，还能分析题目线索中的微妙含义、讽刺口吻及谜语等。“沃森”还能根据比赛奖金的数额、自己比对手落后或领先的情况、自己擅长的题目领域来选择是否要抢答某一个问题。

“沃森”最终轻松战胜两位人类冠军，展示出的自然语言理解能力一直是人工智能界的重点课题。IBM中国研究院院长沈晓卫介绍说，随着大数据时代的来临，今天的“沃森”正在主力向医疗卫生业进军，通过对患者的个性化数据、大量病例和医疗文献的“学习”，提供最佳诊疗方案。

再战星际2

2016年3月，打败了韩国顶尖棋手李世石让 AlphaGo 声名大噪，当然它的步伐不会停歇。暴雪已经确认，AlphaGo 接下来将要挑战的是《

参考消息网2016年4月1日报道，谷歌开发的超级电脑“阿尔法围棋”（AlphaGo）击败韩国围棋大师李世石后，中国电脑围棋科学家团队计划在2016年年底向“阿尔法围棋”发起挑战。

据新加坡《联合早报》网站4月1日报道，由中国围棋协会、中国人工智能学会共同主办的“AlphaGo人机大战的解读与中国人工智能论坛”在北京航空航天大学举行，世界计算机围棋锦标赛创始人陈昭透露了上述消息。

陈昭表示，目前正在组织中国电脑围棋科学家团队展开科研工作，科学家团队有信心在2016年年底举办的第二届世界围棋电脑锦标赛上，向“阿尔法围棋”发起挑战。不过，陈昭并没有对比赛的性质作进一步说明。

北京邮电大学教授、计算机围棋研究所所长刘知青在论坛上做报告时，将“阿尔法围棋”的方法论总结为：直觉获取、搜索验证、优化决策。他认为，这些特征是未来人工智能的核心。

世界排名

2016年7月17日，Gorating世界围棋排名发生了重大变化，柯洁由于在海峡两岸世界冠军争霸赛中表现不佳，积分下跌，AlphaGo反超柯洁，排名升至榜首。

Gorating世界围棋排名的计算方式比较特别，如果对手的积分发生改变，则自己的积分也会相应变化。AlphaGo主要的对手是李世石，战绩是4胜1负，因此只要李世石的积分提升，AlphaGo就会水涨船高。

7月15日至17日，柯洁参加了金立杯两岸世界冠军争霸赛，胜周俊勋，负时越和唐韦星，积分下降不少，被AlphaGo反超。时越目前排名第九，唐韦星第22位。

2017年复出

2016年11月，AlphaGo团队成员樊麾宣布，AlphaGo棋力在半年内有巨大进步，将在2017年复出下棋。该团队会在近期内公布更多讯息。或许我们将能看见AlphaGo对战柯洁。

樊麾是曾获欧洲围棋冠军。2014年AlphaGo以5:0将其击败，人工智能首次战胜职业棋手。

2016年3月，AlphaGo以4:1战胜前世界排名第一的李世石。

2016年11月时，围棋世界排名第一为中国的柯洁，此前他也曾表示与AlphaGo一战，各方也很关注。谷歌CEO也曾造访聂卫平围棋道场，还和柯洁下了盘棋。

2017年4月，从国家体育总局有关方面获悉，围棋人工智能程序“阿尔法狗”(AlphaGo，直译阿尔法围棋)于今年5月下旬在浙江乌镇与包括柯洁在内的中国顶尖棋手进行对决。

据悉，目前世界棋坛实力、人气最炙手可热的柯洁将与阿尔法狗进行三番棋对抗，这也极有可能是人类顶尖棋手与人工智能程序的终极对抗。

去年在韩国进行的“人机大战”中，由DeepMind团队研发的阿尔法狗出人意料地以4：1战胜了韩国著名棋手李世石九段。不过，很多围棋界人士认为，19岁的中国棋手柯洁更能代表目前人类棋手的最高水平。

2017年5月23日，在柯洁对战阿尔法狗(Alphago)的首场比赛中，柯洁以1/4子负于对方，在双方的三番棋大战中暂时0-1落后。按照中国围棋规则，1/4子已经是最小的差距。

2017年5月25日，柯洁九段与围棋人工智能AlphaGo的三番棋比赛第2局战罢。弈至155手，AlphaGo执黑中盘战胜柯洁，将比分改写成2:0。

2017年5月26日，AlphaGo配对赛开战。对战双方为古力/AlphaGo组合和连笑/AlphaGo组合。比赛从上午8点半开始，最终古力举牌中盘认输，连笑/AlphaGo逆转形势获得胜利，古力组的AlphaGo曾举牌表示认输。

AlphaGo Zero

AlphaGo加强版

2017年5月，以3:0的比分赢下中国棋手柯洁后，AlphaGo宣布退役，但DeepMind公司并没有停下研究的脚步。伦敦当地时间2017年10月18日，DeepMind团队公布了最强版AlphaGo ，代号AlphaGo Zero。它的独门秘籍，是“自学成才”。而且，是从一张白纸开始，零基础学习，在短短3天内，成为顶级高手。

团队称，AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时，AlphaGo Zero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGo Zero的相关研究以论文的形式，刊发在了10月18日的《自然》杂志上。

“AlphaGo在两年内达到的成绩令人震惊。现在，AlphaGo Zero是我们最强版本，它提升了很多。Zero提高了计算效率，并且没有使用到任何人类围棋数据，”AlphaGo之父、DeepMind联合创始人兼CEO 戴密斯·哈萨比斯（Demis HAssabis）说，“最终，我们想要利用它的算法突破，去帮助解决各种紧迫的现实世界问题，如蛋白质折叠或设计新材料。如果我们通过AlphaGo，可以在这些问题上取得进展，那么它就有潜力推动人们理解生命，并以积极的方式影响我们的生活。”

自我训练

不再受人类知识限制，只用4个TPU

AlphaGo此前的版本，结合了数百万人类围棋专家的棋谱，以及强化学习的监督学习进行了自我训练。

在战胜人类围棋职业高手之前，它经过了好几个月的训练，依靠的是多台机器和48个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。

AlphaGo Zero的能力则在这个基础上有了质的提升。最大的区别是，它不再需要人类数据。也就是说，它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋，然后进行自我博弈。值得一提的是，AlphaGo Zero还非常“低碳”，只用到了一台机器和4个TPU，极大地节省了资源。

经过几天的训练，AlphaGo Zero完成了近5百万盘的自我博弈后，已经可以超越人类，并击败了此前所有版本的AlphaGo。DeepMind团队在官方博客上称，Zero用更新后的神经网络和搜索算法重组，随着训练地加深，系统的表现一点一点地在进步。自我博弈的成绩也越来越好，同时，神经网络也变得更准确。

能力提升

据大卫·席尔瓦介绍，AlphaGo Zero使用新的强化学习方法，让自己变成了老师。系统一开始甚至并不知道什么是围棋，只是从单一神经网络开始，通过神经网络强大的搜索算法，进行了自我对弈。

随着自我博弈的增加，神经网络逐渐调整，提升预测下一步的能力，最终赢得比赛。更为厉害的是，随着训练的深入，DeepMind团队发现，AlphaGo Zero还独立发现了游戏规则，并走出了新策略，为围棋这项古老游戏带来了新的见解。

自学3天，就打败了旧版AlphaGo

除了上述的区别之外，AlphaGo Zero还在3个方面与此前版本有明显差别。

首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工设计的特征输入。

其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。

第三，AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠地是其高质量的神经网络来评估下棋的局势。

据哈萨比斯和席尔瓦介绍，以上这些不同帮助新版AlphaGo在系统上有了提升，而算法的改变让系统变得更强更有效。

经过短短3天的自我训练，AlphaGo Zero就强势打败了此前战胜李世石的旧版AlphaGo，战绩是100:0的。经过40天的自我训练，AlphaGo Zero又打败了AlphaGo Master版本。“Master”曾击败过世界顶尖的围棋选手，甚至包括世界排名第一的柯洁。

前景

对于希望利用人工智能推动人类社会进步为使命的DeepMind来说，围棋并不是AlphaGo的终极奥义，他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。AlphaGo Zero的提升，让DeepMind看到了利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作，提高看病效率和能源效率。

故事内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本故事还有待完善，请编辑