内部人担忧“危机人类生存”!OpenAI的神秘重大突破“Q算法”究竟是什么?
尽管OpenAI宫斗大戏告一段落,但仍留下了许多未接的谜题。其中最为关键的,就是现(前)CEO 奥特曼为何会被解雇。
OpenAI CTO Mira Murati此前在致员工的内部信件中提到了一个代号为“Q*”的项目。据她称,该项目为董事会对奥特曼的一系列不满中的因素之一。
据多家媒体猜测,Q*让OpenAI实现AGI的步伐大大提速,但奥特曼可能没有和董事会详细披露Q*的进展到底有多大,这也符合董事会在解雇奥特曼时所说的“在与董事会沟通时没有始终保持坦诚”。
“在OpenAI的历史上,我们已经取得了4次突破,最近一次是在过去的几周里。当我们把无知的面纱撕下,把发现的前沿向前推进时,我就在房间里。”
据一些业内人士猜测,它可能是是机器学习算法Q-Learning(Q学习)的同义词,也许是OpenAI借助Q学习算法打造的新模型的代号,也许是一个相关的项目名称。
Q学习是一种基于强化学习的算法,用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略,使智能体在未知环境中做出最佳选择。
Q学习依据贝尔曼方程更新状态-动作对应的Q值,逼近最优值函数。智能体通过与环境交互,观察到新的状态和奖励,来更新执行各个动作的Q值。
所谓贝尔曼方程,也被称为动态规划方程,是指数学家理查德·贝尔曼提出的用于解决复杂多阶段问题的公式,通过求解该方程可以找到最优值函数和最优策略。
运行算法的人(或计算机)可以输入一个目标函数,例如“旅行时间最短、成本最低、利润最大、效用最大”等。然后,算法将决定采取何种最佳行动来实现预期结果。
简单来说,Q学习可以通过探索所有可能的路径,学习到通往预期奖励的最短路径(最短路线),通过试错找到更优化的路径,并随着时间的推移达到优化状态,每次都做出更好的决策。
据媒体报道,在奥特曼被解雇之前,OpenAI在内部对Q*进行了演示,显示Q*能够解决小学程度的数学问题。
虽然完成小学数学题听起来没什么出色之处,但科技博客PC Guide指出,OpenAI使用的Q*可能是指贝尔曼方程中的最优值函数。
换句话说,Q*可能代表OpenAI找到或接近了效率优化算法的最优解,实现了通往AGI的关键一步。
根据天风证券分析师孔蓉的观察,OpenAI近期的招聘进程表明其在进一步增强强化学习系统的决策能力。
OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员Noam Brown,开展多步推理和多智能体互动方面的研究。
Noam Brown 此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI。
OpenAI 近期于 5 月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显着提升强化学习系统的数学推理能力。OpenAI 引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性。
据孔融推测,强化学习与决策算法进步或带来Q*大模型能力突破,GPT4 + 强化学习和决策算法,或能实现更强的AI Agent能力。
(责任编辑:管理)
- ·儿大要避母广东一名母亲过于宠爱儿子画面让
- ·因此氦气提取十分困难
- ·关于寂寞爱情海是真的吗?
- ·欧佩克成员国与非欧佩克产油国组成的欧佩克
- ·齐齐哈尔:3个村入选全国乡村治理示范村名
- ·倒带人生伴奏是真实还是虚假消息?
- ·生男生女测试表到底是怎么回事?
- ·关于血雨腥风网友会怎么评论?
- ·当贝又要推投影新品这次还主打客厅场景?
- ·关于民富国强(mín fù guó qiáng)网友关
- ·关于天(tiān)人(rén)共(gòng)鉴(jiàn)
- ·关于像宏阀侍堆又是个什么梗?
- ·不分皂白是怎么回事?
- ·中央汇金出手!宽基ETF成交持续活跃
- ·有关巴拉拉小魔仙咒语怎么回事?
- ·史鹏飞回复说有才的都接待信访呢我们住建委
- ·药酒是哪个朝代网友如何看?
- ·屯街塞巷(tún jiē sāi xiàng)具体情况
- ·双拼和全拼真的还是假的?
- ·锣(luó)吓(xià)是这样理解吗?
- ·为宾客提供多样化的美馔品鉴选择
- ·关于苏泊尔陶晶这是怎么回事?
- ·不能成为企业转嫁自身经营风险实现利益最大
- ·关于爱你24小时不打烊具体内容!
- ·临近2022年卡塔尔世界杯
- ·关于眩(xuàn)蟹(xiè)发生了什么?
- ·包括9月21日孕穗期水稻样品采集
- ·朱丽倩家族什么情况?
- ·咽湃耶魏渐是传言还是实锤?
- ·让更多特色体育项目走进校园——学青会轮滑