狂丸科学,每天涨点新知识
13年前,一款名为《QWOP》的跑步模拟器Flash小游戏,被众多玩家评为史上最难、最变态的游戏。
游戏目标十分简单,键盘上的QWOP四个按键分别代表运动员的两条大腿和小腿,玩家需要用这四个键操控他跑过100米之外的终点线,这也是游戏名的来源。
尽管听起来很容易,自己亲自上手的话很容易就酿成人间惨剧……
不往前走不说,反而开起了倒车。
要不就是一个狗啃屎直接GG,完全掌握不好平衡。
看看这别人家的游戏,最快的高手不到50秒就跑完了全程。而狂丸整了半天就没跑出去过10米,低血压都快给我治好了。
游戏不应该是给人带来快乐的吗?.jpg
周先生曾经说过,人类的悲喜并不相通,但是对于游戏的执着是。
Wesley Liao是国外的一名数据分析师,热衷于人工智能领域。那一天,他又回想起了被《QWOP》支配的恐惧,试图用AI对那个游戏发起一场大复仇。
Liao设立了一个奖惩机制,告诉AI怎样挪动步伐是正确的,然后让AI在实际操作中逐渐自我学习,掌握规则,直到成功跑过终点线。
和人类田径运动员需要场地和有科学训练方法的教练一样,AI的训练也需要计算的平台和算法。
Liao选择了一种名为ACER的强化学习算法作为AI的教练。
简单来说,ACER的优势在于它很会「翻旧账」,不仅能够从AI最近的表现汲取经验,也能从早期存储的大量数据中获得经验,避免学习重复的东西,极大提高样本效率。
Liao把这名特殊运动员的身体数据输入了算法,主要有头部的动态、手部、肘部、还有臀部的动态。
4中按键的11种组合可能性也被纳入计算范围内,包括4个按键的单独激活,6种4个按键的两两组合激活,还有什么键也不按。
AI经过8小时的自主学习后,成功摸索出了一套稳赢不亏的跑步方法论——跪着跑。
其实,狂丸在试玩几把后也发现,以弓步压腿这种姿势一点一点往前磨蹭的方法是能够成功到终点的,但赢是赢了,代价就是得跪着。
我堂堂一个跑步运动员连跑都不会,这叫什么事儿?
这样的荒诞结果让狂丸想到之前网上那个狼追羊的AI训练实验。
抓不到干脆就不抓,站不起来干脆就跪着,爱咋咋地,你就说过没过线吧。
看来全靠AI自学是不行了,Liao只能另找方法让AI重新学习。
这次,通过和人类下棋来自我学习的Alpha Go给了Liao改进的灵感。他把自己游玩《QWOP》的过程记录下来做成经验胶囊喂给AI吃。
这本来是个很好的研究路线,可惜Liao对于这个游戏实在是太苦手,以正常的跑步姿态前进的话,靠他本人最多只能跑到28米处,最后勉强挑出50份相对优质的数据交给AI学习。
结果,什么叫邯郸学步啊?
跑步没学会,自己之前怎么走也忘的一干二净,Liao决定再给AI一些时间闷头消化消化。
20小时后,AI终于能操纵运动员跑动的更像人一点了,更重要的是不会再原地逝世,1分25秒的成绩已经足够在当时进入世界前15。
可愚蠢的人类总是贪心的,有了金斧头,还想把河神带回家。这时候,Liao把目光投向了《QWOP》的全球排行榜。
要是把之前自己的菜鸡经验换成榜一榜二的大神经验,AI肯定会成长的更快。
他虚心向排行榜上的顶尖选手请教,get了成功地另一要诀。
推上名为@くろうど的高手建议,减少运动员的上下起伏或许会跑的更快,而且相当慷慨的给Liao发了50份自己游玩时高端局的按键纪录。
在把@くろうど的经验喂给AI之后,本以为一切妥妥的Liao没想到AI直接给他点了一首《奇迹再现》。
没错,AI又忘了怎么抬腿了。
这次,Liao决定改变一下训练方法,采用一种名为 DQN 的经典深度强化学习算法来训练AI。
这种方法相当于一个盒子,它会把之前学习到的经验和新来的经验混在一起,保证AI一半的经验来自AI自身,另一半来自高手@くろうど。
就这样,AI终于能再一次奔跑起来了。只是动作不太协调,时不时会突然给出一飞腿,这是人类经验和AI计算结合带来的阵痛。
于是,Liao在接下来的训练中慢慢移除掉@くろうど的经验,全靠AI自己调整改掉了飞腿的毛病。
25个小时后,运动员终于能完美的以人类跑步姿态跑完全程,并且以1分08秒的成绩打入世界前10。
按常理说,在某些游戏方面,AI的战斗力是比人类玩家高上不少的。
有些媒体就出来搞事情,问Liao的AI为什么连人类都跑不过。
这可在Liao的雷区结结实实踩了一脚,想冲?冲给你看。
既然AI已经学会了如何正确的跑步,Liao就在训练中把速度放到了第一位,名为Prioritized DDQN的、优化过的深度强化学习算法被应用在这次升级之中。
顾名思义,这个算法会加强AI已学习过内容的权重。而且Liao这次取消了身体高度的限制,一切只为冲的更快而设计。
40小时的训练后,AI对腿的掌握可以说达到了人腿合一的状态,成绩直接提升到47.34秒,比人类最高纪录正好快1秒。
不过这个排行榜只认可人类玩家的成绩,所以AI虽然快,但是规则毕竟是别人定的,只好默默做一个十里八乡的俊AI。
这股让AI玩游戏的风潮也吹到了「无所不能万物起源」的我的世界中。
最近,哥本哈根信息技术大学、纽约大学和上海大学的研究者们共同创造了一个能够自动建造物品的AI,名为3D神经元胞自动机。
这个AI可以自动建造包括毛毛虫、房子、城堡、大树等最多由3000多个方块组成的物品。
它甚至还能自我修复,当毛毛虫被一分为二,剩下的残体会自动成长为新的毛毛虫,死侍直呼内行。
看起来,未来的游戏里,不仅仅是「别人的世界」,更是「AI的世界」了。