第一代 AlphaGo 能够击败专业的 Go 玩家。 2017 年 10 月,Google DeepMind 在 Nature 上发表了有关[《AlphaGo Zero》](https://www.nature.com/articles/nature24270)的论文。 AlphaGo Zero 是 AlphaGo 的最新版本。 早期版本的 AlphaGo 在接受过数以千计的从业余到专业游戏的人类游戏训练后,学会了玩游戏。 但是 AlphaGo 的最终版本(即 AlphaGo Zero)从零开始学到了一切,这是从第一个基本原理开始的,既没有使用任何人工数据也没有任何人工干预,并且能够实现最高水平的性能。 因此,AlphaGo Zero 通过与自己对战来学习玩围棋。 最大的壮举之一是,AlphaGo Zero 在 19 小时内就能够学习更高级的围棋策略的基础知识,包括生与死,影响力和领土。 在短短的三天内,AlphaGo Zero 击败了所有先前的 AlphaGo 版本,并在 40 天内超过了人类对 Go 的一千年了解。
AlphaGo Zero 背后最重要的想法是,它完全从空白状态(即清晰的 Go 棋盘)中学习,并通过自己的玩法自行弄清楚,而无需任何人类知识,没有任何人类游戏示例和数据,甚至没有任何东西 人为干预。 它从最初的基本原理中发现并发展了学习围棋游戏的直觉。 这种从头开始的学习称为**表格学习**或**空白板学习**。
AlphaGo Zero 背后最重要的想法是,它完全从空白状态(即清晰的 Go 棋盘)中学习,并通过自己的玩法自行弄清楚,而无需任何人类知识,没有任何人类游戏示例和数据,甚至没有任何东西 人为干预。 它从最初的基本原理中发现并发展了学习围棋游戏的直觉。 这种从头开始的学习称为**表格学习**或**白板学习**。
Tabula rasa 学习对于任何 AI 代理都是非常重要的,因为如果有一个代理已实现 Tabula rasa 学习,则可以将其从 Go 游戏移植到其他域环境(可能是其他任何游戏)。 Tabula rasa 学习将代理与其所在领域的具体情况脱钩,并尝试开发一种算法,该算法足够通用,可以学习以实现与该环境相关的目标,并且可以在任何地方应用。
...
...
@@ -186,7 +187,7 @@ Google DeepMind 已经开始使用 AlphaGo Zero 来了解蛋白质折叠,因