研究强化AI学习 76岁巴托、67岁萨顿师徒获图灵奖

HILOVEYOUTU · 发表于 2025-3-6 05:00:56

马上注册，结交更多好友，享用更多功能，更可下载纽约情报站APP哦！

您需要登录才可以下载或查看，没有帐号？立即注册

x

登录/注册后可看大图

麻州大学退休教授巴托（左）、加拿大阿伯塔大学终身教授萨顿（右）。（美联社）

强化学习（reinforcement learning）领域的两位AI人工智能开发先驱、计算机科学家巴托（Andrew Barto）和萨顿（Richard Sutton），5日荣获被视为科技界的诺贝尔奖的「图灵奖」（A.M. Turing Award）。全球最大计算机相关学会「计算机协会」（Association for Computing Machinery，ACM）5日宣布今年度「图灵奖」得主，100万元奖金则由谷歌赞助。

76岁的巴托和67岁的萨顿是师生关系，这对师徒1970年代末期开始进行强化学习研究，为过去十年AI部分发展铺路。他们的研究核心采用类似驯犬师或驯马师的训练行为做法，引导所谓「享乐」（hedonistic）机器，让机器根据接收到的正面讯号，不断调整行为。

强化学习让Google电脑程序在2016年和2017年击败围棋界人类顶尖高手，也是改善ChatGPT等流行AI工具、优化金融交易、协助机械手解决魔术方块的关键技术。

巴托向美联社表示，他和萨顿刚开始在阿默斯特麻州大学研究理论和算法时，强化学习领域并不时髦; 「当时就像在荒野中开路，现在这块领域越来越被认可，还被认为是很有趣的事; 和早期情况大不同。所以，获得这个奖令我深感欣慰。」

巴托已从麻州大学退休14年，萨顿现在是加拿大阿伯塔大学终身教授。

图灵是英国数学家，在二次大战期间设计出破解德军无线电密码的机器，协助盟军拦截击沉无数德国潜艇，1947年提出「机器能从经验中学习」的假说，被誉为AI先锋。

巴托和萨顿的研究就是以图灵的学说为基础。萨顿称之为强化学习的基本思想。

巴托和萨顿的强化学习研究，借用心理学和神经科学有关寻求快乐的神经元会对奖惩作出反应的构想，两人在1980年代初发表过一篇具有里程碑意义的论文，将其研究方法应用于模拟世界特定任务：平衡移动推车上的杆子，防止其倒下。两人后来共同编写了一本强化学习教科书，广受各方使用。

点击下面文字可快速查看或发布对应的便民信息！

纽约情报站让您的生活变的更简单

简介：纽约情报站是汇集全美75万粉丝的公众平台。除了实时新闻、找工招工信息发布、app社区互动，更有微信公众号推文探店等。如果你投稿、爆料、活动策划、商务合作，或者想邀请我们去探店，请联系主编微信： nyinfor

[社会] 研究强化AI学习 76岁巴托、67岁萨顿师徒获图灵奖

马上注册，结交更多好友，享用更多功能，更可下载纽约情报站APP哦！

发表回复

楼主

热门推荐