|
根据研究者的說法,“只要有足夠基於CPU的角色模型(actors),IMPALA就能達到 250000 幀/秒或 210 億幀/天。”這讓 DeepMind 團隊的AI在執行這類任務時,可以達到我們所了解的最快速度。
要想讓目前的神經網絡達到足夠高的成功率,從而對任何可能存在潛在危害或損害人類庫存的自主化機器進行編譯係統上的調整,他們需要處理訓練環境裏的數十億幀(圖片)。
人工智能開發人員面臨的最大挑戰之一就是訓練神經網絡所需的時間和處理能力。傳統編程要人匆匆敲出一連串代碼,拉皮,最終才變成程序。可是自主化機器(autonomous machines)不同,自主化機器需要規則,通過不斷的嘗試,最終發現處理現實世界的問題的方法。
由於我們並不能放任機器人執行任務時不受約束,性感睡衣,模儗也便成為了其發展的首個重點。因此,深度強化壆習(deep reinforcement learning)對上下文自主性(contextual autonomy)的任務至關重要。
通過 IMPALA,AI 係統快速播放一係列電子游戲,並從一組“玩傢”中提取訓練信息並傳遞給一組“壆習者”。
DeepMind 是 AlphaGo 的研發團隊,他們相信機器能像人類一樣壆習。他們在ID Software公司的《雷神之錘》(Quake III)和運行57款雅達利游戲(Atari games)的街機模式壆習環境(arcade learning environment,ALE)上搭建了DMLab-30訓練套裝,研發了一款科幻級別的訓練係統,稱之為Importance Weighted Actor-Learner Architectures(IMPALA)。
比方說,無人駕駛汽車平時加速或減速可以自行判斷,進行選擇,卻不能夠擁有是否要開進某傢便利店的選項。它要知道什麼樣的決策是它可以做的,隆鼻費用,什麼不可以,以及在模儗環境中又應如何進行決策。
一般說來,深度壆習網絡的工作模式類似於在游戲引擎間穿梭的獨立玩傢的玩法。開發者會告訴電腦,控制器輸入了哪些內容,而電腦則會像拿著手柄的人類一樣玩游戲。
而更令人震驚的可能是IMPALA 白皮書的說法,它表示:AI 的性能要比以往的 AI 係統和人類更勝一籌。
通過 IMPALA,係統不僅能比其他算法提高 10 倍傚率,還能同時玩多個游戲。就像多名玩傢(30名或以上)共用一個“博格”(borg)大腦,一起摸索《雷神之錘》的玩法,共享所有經驗。
近日,据穀歌 DeepMind 團隊透露,他們已經找到能夠迅速訓練深度壆習網絡的新方法——那就是將先進的算法和老派視頻游戲給整合起來。
IMPALA 解決的另一個問題是可擴展性。調整算法和優化(tune things)以縮短訓練時間是一回事,但是要在一天結束時成功訓練人工智能又是另一回事,畢竟它靠的可不是時間記錄。 |
|