OpenAI神秘新模型Q曝光！太强大让董事会警惕：网友称天网雏形

TAG标签| 网站地图| 收藏本站

返回首页

最后编辑时间：2023-11-25 14:23:40 来源：未知作者：未知阅读量：未知

　　OpenAI历史上已经有过四次，最近一次就是在过去几周，当我们推开无知之幕并抵达探索发现的前沿时，我就在房间里，这是职业生涯中的最高荣誉。”

　　最新的梗图则是，好像一夜之间，人们都从研究奥特曼和OpenAI董事会的专家，变成了Q*专家。

　　GPT-Zero让下一代AI模型不用依赖互联网上抓取的文本或图片等真实世界数据，而是使用合成数据训练。

　　Jakub Pachocki上个月刚刚晋升研究总监，过去很多突破包括Dota 2项目和GPT-4的预训练，他都是核心贡献者。

　　Szymon Sidor同样参与过Dota 2项目，个人简介是“正在造AGI，一行代码接一行代码”。

　　在路透社的消息中，提到给Q*提供庞大的计算资源，能够解决某些数学问题。虽然目前数学能力仅达到小学水平，但让研究者对未来的成功非常乐观。

　　另外还提到了OpenAI成立了“AI科学家”新团队，由早期的“Code Gen”和“Math Gen”两个团队合并而来，正在探索优化提高AI的推理能力，并最终开展科学探索。

　　Q-Learning可以追溯到1989年，是一种无模型强化学习算法，不需要对环境建模，即使对带有随机因素的转移函数或者奖励函数也无需特别改动就可以适应。

　　与其他强化学习算法相比，Q-Learning专注于学习每个状态-行动对的价值，以决定哪个动作在长期会带来最大的回报，而不是直接学习行动策略本身。

　　另外有人猜测，7月份加入OpenAI的“德扑AI之父”Noam Brown也可能与这个项目有关。

　　他在加入时曾表示要把过去只适用于游戏的方法通用化，推理可能会慢1000被成本也更高，但可能发现新药物或证明数学猜想。

　　虽然更多的都还是猜测，但合成数据和强化学习是否能把AI带到下一个阶段，已经成了业内讨论最多的话题之一。

　　英伟达科学家范麟熙认为，合成数据将提供上万亿高质量的训练token，关键问题是如何保持质量并避免过早陷入瓶颈。

　　马斯克同意这个看法，并提到人类所写的每一本书只需一个硬盘就能装下，合成数据将远远超出这个规模。

　　但图灵奖三巨头中的LeCun认为，更多合成数据只是权宜之计，最终还是需要让AI像人类或动物一样只需极少数据就能学习。

　　但将“合成数据”与“数据高效的强化学习算法”相结合，可能正是推进当前人工智能研究范式的关键。

　　他表示，通过强化学习微调是训练高性能大模型（如ChatGPT/GPT-4）的秘诀。但强化学习本质上数据低效，使用人工手动标注数据集进行强化学习微调非常昂贵。考虑到这一点，推进AI研究（至少在当前范式中）将严重依赖于两个基本目标：

　　但奥特曼刚刚透露与留在董事会的Quora创始人Adam DAngelo进行了几个小时的友好谈话。

　　看来无论Adam DAngelo是否像大家猜测的那样是这次事件的幕后黑手，现在都达成和解了。

(责任编辑：管理)

随机内容