ChatGPT神秘力量拖LLM后腿?Karpathy与LeCun联合批评RLHF
近日,AI界的知名研究员Andrej Karpathy抛出了一个颇具争议的观点,他认为目前广受推崇的基于人类反馈的强化学习(RLHF)技术可能并非通往真正人类级别问题解决能力的必由之路。这一言论无疑给当前AI研究领域投下了一枚重磅炸弹。
RLHF曾被视为ChatGPT等大型语言模型(LLM)成功的关键因素,被誉为赋予AI理解力、服从性和自然交互能力的秘密武器。在传统的AI训练流程中,RLHF通常作为预训练和监督式微调(SFT)之后的最后一个环节。然而,Karpathy却将RLHF比作一种瓶颈和权宜之计,认为它远非AI进化的终极解决方案。
Karpathy巧妙地将RLHF与DeepMind公司的AlphaGo进行了对比。AlphaGo采用了他所称的真正的RL(强化学习)技术,通过不断与自己对弈并最大化胜率,最终在没有人类干预的情况下超越了顶级人类棋手。这种方法通过优化神经网络直接从游戏结果中学习,达到了超越人类的表现水平。
相比之下,Karpathy认为RLHF更像是在模仿人类偏好,而非真正解决问题。他设想如果AlphaGo采用RLHF方法,人类评估者将需要比较大量的棋局状态并选择偏好,这个过程可能需要高达10万次比较才能训练出一个模仿人类氛围检查的奖励模型。然而,这种基于氛围的评判在围棋这样的严谨游戏中可能会产生误导性结果。
同理,当前LLM的奖励模型工作原理也类似——它倾向于对人类评估者在统计上似乎偏好的答案进行高排名。这更像是一种迎合人类表面喜好的代理,而非真正的问题解决能力的体现。更令人担忧的是,模型可能会迅速学会如何利用这种奖励函数,而非真正提升自身能力。
Karpathy指出,虽然强化学习在像围棋这样的封闭环境中表现出色,但对于开放式语言任务来说,真正的强化学习仍然难以实现。这主要是因为在开放性任务中,很难定义明确的目标和奖励机制。如何为总结一篇文章、回答关于pip安装的模糊问题、讲一个笑话或将Java代码重写为Python等任务给出客观的奖励?Karpathy提出了这个富有洞察力的问题,朝这个方向发展并非原则上不可能,但也绝非易事,它需要一些创造性的思考。
尽管如此,Karpathy仍然认为,如果能够解决这个难题,语言模型有望真正匹配甚至超越人类的问题解决能力。这一观点与Google DeepMind最近发表的一篇论文不谋而合,该论文指出开放性是通用人工智能(AGI)的基础。
作为今年离开OpenAI的几位高级AI专家之一,Karpathy最近正在为自己的教育AI创业公司奔走。他的这番言论无疑为AI研究领域注入了新的思考维度,也为未来AI发展方向提供了宝贵的洞见。
Karpathy的观点引发了业内广泛讨论。支持者认为,他揭示了当前AI研究中的一个关键问题,即如何使AI真正具备解决复杂问题的能力,而不仅仅是模仿人类行为。反对者则担心,过早放弃RLHF可能会导致AI发展方向的偏离。
欢迎大家加入AiBase交流群, 扫码进入,畅谈AI赚钱心得,共享最新行业动态,发现潜在合作伙伴,迎接未来的赚钱机遇!。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道9.11和9.9哪个大,数不清Strawberry单词里面有多少个r……每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。如果你有更好的解决方案,欢迎在评论区留言。
本文将介绍如何利用ChatGPT和MindShow的强大功能,快速生成高质量的PPT。通过简单的步骤和实用的技巧,您将学会如何高效地结合AI文本生成和视觉设计,提升您的演示文稿制作效率。所以我们把刚刚复制的回答黏贴到文本框中。
7月19日凌晨,OpenAI在官网发布了最新大模型GPT-4omini,具备文本、图像、音频、视频的多模态推理能力。根据测试性能显示,GPT-4omini的性能比GPT-4更好,大约有GPT-4o的80%能力。OpenAI表示,未来将继续开发类似GPT-4o这样的性能强、能耗低的小模型,以加速生成式AI应用的开发或集成,帮助更多的开发者、企业打造超级智能应用。
马斯克在脑机接口中最强大的竞争对手Synchron有了新的技术进展,他们首次将ChatGPT整合到其脑机系统中,以使瘫痪患者更容易控制他们的数字设备。Synchron凭借其独特的脑机接口技术脱颖出,该技术巧妙地运用了成熟的支架与导管技术,实现了无创或微创的设备植入大脑,彻底摒弃了传统开放式颅骨手术的复杂与风险。关于成本方面,Synchron的BCI系统预计定价于50,000至100,000美元之间,这一价格区间与心脏起搏器、人工耳蜗等高端医疗植入设备的市场价格相媲美,展现了其作为高端医疗科技产品的价值与潜力。
GPT-4o被谷歌新模型超越了!历时一周,超1,2000人匿名投票,Gemini1.5Pro代表谷歌首次夺得lmsys竞技场第一。且这次还是双冠王,除了总榜,在视觉排行榜上也是第一。面对谷歌最新取得的一系列新排名,竞技场榜单权威性再次受到大家质疑。
OpenAI正深入探索文本水印技术的前沿领域,然,该公司坦言,这一创新领域仍面临重重技术挑战与待解难题。OpenAI巧妙地设想通过微妙调整ChatGPT生成文本中的词汇选择,来在字里行间编织一张不可见的数字指纹”即文本水印。公司正将更多目光投向视听内容的认证工具开发上,力求在保障内容创作者权益的同时,促进数字内容的健康流通与多元发展。
Figure.AI联合创始人BrettAdcock宣布,将于8月6日发布Figure02型号。Brett没有过多的介绍Figure02新功能和技术特性,只放出了一句狠话——这将是地球最强的人形机器人。宝马已经与Figure.AI签署了合作协议,将在实际业务中使用Figure系列实体机器人。
ChatGPT掀起了一场AI在大众圈的话题热潮,全民热聊中也对AI发展方向和未来发展趋势提出了很多问题,也有许多人想问以ChatGPT为代表的AIGC的兴起,对计算机视觉、AIoT的产业发展有何种启发。我们邀请了旷视研究院基础科研负责人张祥雨做客这次的对话,分享他的思考和观点。旷视将会沿着AIinPhysicalWorld这条路线继续探索。
【新智元导读】今早,所有开发者们被突如其来iOS18.1测试版砸晕了!没想到,苹果AI这就可以上手尝鲜了,一大波测评刷屏全网。更惊喜的是,苹果AI背后的基础模型47页技术报告,也一并上线了。人人都可体验那时需要等到10月。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:、OpenAI向ChatGPTPlus用户推出高级语音模式OpenAI宣布推出高级语音模式,提供更自然、实时的对话体验,允许用户打断并感知回应情绪。雷军本人对AI有深刻理解,近两年主要精力集中
openKylin 2.0是一个深度融合AI技术的操作系统版本,它基于Linux 6.6 LTS内核,完成了180多项核心组件的自主选型升级,提供了包括麒麟AI助手在内的多项实用AI功能。该版本由超过6500名开发者共同打造,得到了110多个SIG和520多家企业的鼎力支持,是社区共同努力的结晶。openKylin 2.0不仅提升了系统稳定性和兼容性,还通过引入创新特性如开明软件包格式、不可变系统等,为用户提供了更高效、更安全、更个性化的操作系统体验。
SAAR是一个AI音乐助手,旨在通过直观的语音或文本对话帮助用户创作音乐。它类似于Siri或Alexa,但专注于音乐创作领域。SAAR可以生成音乐、创作歌词,并通过对话与用户进行音乐交流。它为音乐家和梦想家设计,旨在简化音乐创作过程,让创意实现更加轻松。
WorkWeave是一个专注于提高个人和团队工作效率的平台,它通过实时反馈和数据分析帮助用户提升技术领导力、时间管理等技能。该平台提供个性化的建议和行动计划,帮助用户在职业发展上取得进步。它还关注用户的情绪智能,减少压力、冲突和职业倦怠,同时确保企业级的安全性和用户数据的隐私保护。将数据输入到我们的人工智能性能增强平台,并将其转化为个性化的见解和可行的反馈。
LuckyRobots是一个致力于使机器人技术对普通软件工程师可用的模拟平台,通过自然语言控制机器人执行任务,无需依赖ROS和物理硬件。平台提供了虚拟环境、物理模拟和多摄像头输入,支持用户部署和测试端到端的AI模型。
WebLens是一个专注于网站分析和优化的工具,它通过自动生成的洞见来帮助用户进行A/B测试,从而提升网站性能和用户体验。该产品具有强大的数据分析能力,能够帮助用户审查假设,并将它们转化为实际的测试项目,以科学的方法验证网站设计和功能的有效性。
AI 专辑封面生成器是一款利用人工智能技术帮助用户快速生成专业品质音乐封面的工具。它通过用户输入的提示(Prompt)和图片尺寸,快速生成具有创意且视觉吸引力强的专辑封面设计。这款工具特别适合预算有限或缺乏设计技能的独立艺术家和小乐队,帮助他们节省时间和资源,同时获得专业级别的设计成果。
AI Detector是一个提供AI内容检测和AI图像检测的网站工具,它使用先进的AI算法来识别文本和图像是否由人工智能生成。该工具强调内容原创性验证、安全性和准确性,适用于作家、教育工作者和专业人士,帮助他们确保其内容和视觉内容的原创性和真实性。
PS2 Filter AI Tool是一款在线工具,使用先进的AI技术,用户可以上传自己的图片,一键转换成复古的PlayStation 2风格。它不仅能够提供独特的视觉效果,还能让用户轻松分享到社交媒体,享受复古游戏的视觉体验。
SEO Backlink Hub是一个专注于提供高质量反向链接提交服务的平台,旨在通过有效的反向链接布局,增加网站权威性和搜索引擎排名。平台专注于为网站管理员提供链接提交的中心,以提升在线可见性和有机流量增长。
LivePortrait是一款AI驱动的动画制作工具,由快手科技开源,能够将静态照片快速转化为逼真的动态视频。它支持真实照片、动画风格和艺术肖像等多种风格,并提供精确的动作控制,如眼睛和嘴唇的自然运动。LivePortrait还具备多样化的风格支持、自定义动画模式、增强的图像处理功能,以及快速的创作过程。
逗逗是一款AI游戏伙伴APP,为用户提供了智能陪玩、情绪陪伴、智能攻略、笑话锦集以及多种角色扮演等功能。它能够根据用户的需求提供个性化的互动体验,增强游戏过程中的趣味性和互动性。产品由心影随形(上海)技术有限公司开发,支持Win7及以上系统。
Pandrator 是一个基于开源软件的工具,能够将文本、PDF、EPUB 和 SRT 文件转换成多种语言的语音音频,包括语音克隆、基于LLM的文本预处理以及将生成的字幕音频直接保存到视频文件中,与视频的原始音轨混合。它旨在易于使用和安装,具有一键安装程序和图形用户界面。
Turtle Benchmark是一款基于Turtle Soup游戏的新型、无法作弊的基准测试,专注于评估大型语言模型(LLMs)的逻辑推理和上下文理解能力。它通过消除对背景知识的需求,提供了客观和无偏见的测试结果,具有可量化的结果,并且通过使用真实用户生成的问题,使得模型无法被游戏化。
即刻魔法镜是一个基于用户即刻账户信息的个性化分析工具,通过分析用户的行为和偏好,提供个人优点、缺点、爱情、金钱、健康等方面的星座预测和生活建议,帮助用户更好地了解自己,发现潜力和改善空间。
Teable是一个结合了SQL能力与电子表格协作的顶级解决方案,直接连接到Postgres,提供协作体验,超越Airtable,满足运营数据需求,显着加速快节奏的创业团队。集成了AI能力,可以快速创建应用程序、分析数据、创建视图、执行操作等。
PDFchatai是一款利用人工智能技术的应用程序,它允许用户通过聊天的方式与PDF文档进行互动,从而快速提取信息、总结内容并从文档中获得答案。该产品以其易用性、安全性和创新性脱颖而出,提供本地数据存储以保护用户隐私,同时拥有直观的用户界面和强大的社区支持。
DEV Challenges是一个类似于小型黑客马拉松的活动,为开发者提供了一个展示技能、积累经验、与社区互动的平台。参与者可以通过解决实际问题来提升自己的编程能力,同时有机会赢取现金奖励。这些挑战由不同的赞助商支持,例如Neon作为官方数据库合作伙伴。
Legitt AI是一款AI赋能的电子签名服务,它通过先进的AI集成,提供智能合同管理和决策自动化,增强了业务运营的效率。平台符合ISO 27001、GDPR和SOC 2 Type 2等顶级安全标准,确保交易的法律有效性和全球数据保护与安全规范的一致性。用户界面友好,促进团队成员之间的无缝协作。Legitt AI的文档管理系统高效,提供大量模板和复杂的电子签名应用,加快文档流转。此外,还包括自动提醒功能,确保任务的及时完成。
StockBot是一个开源的AI聊天机器人,使用Groq硬件加速器Llama3-70b,结合Vercel AI SDK和TradingView Widgets,为用户提供实时股票市场信息和数据分析。它通过功能调用渲染相关的TradingView股票市场小部件,帮助用户快速获取市场动态和公司财务信息。
ml-mdm是一个Python包,用于高效训练高质量的文本到图像扩散模型。该模型利用Matryoshka扩散模型技术,能够在1024x1024像素的分辨率上训练单一像素空间模型,展现出强大的零样本泛化能力。
(责任编辑:管理)
下一篇:没有了
- ·经济工作要坚持稳字当头稳中求进
- ·游刃有余的意思为什么会上热搜?
- ·一个个最可爱的人用热血与生命汇聚为伟大的
- ·籴和粜两字怎么读什么意思古代平籴、平粜理
- ·关于天书奇谈宠物岛真的还是假的?
- ·FIBA3x3U23国家联赛总决赛中国U21男队一胜
- ·上千人正全力扑救!四川雅江山火最新消息
- ·广州黄埔怡园小学:举办“红船精神”红色教
- ·宁波市政府12月2日召开百团千企万人拓市场
- ·杜汶泽田蕊妮具体内容是什么?
- ·关于带着空间穿郭皇后是真实还是虚假消息?
- ·如何算八字到底怎么回事?
- ·关于瞪纳陇须揍网友怎么看?
- ·冗灌楚板可以这样理解吗?
- ·茅台镇三台一坊酱酒:王子、国台国标、钓鱼
- ·“双美”创建丨赚积分兑出美好生活!封开今
- ·奔扛求锣又是什么梗?
- ·鹿港小镇吉他谱具体内容!
- ·有关兴(xīng)高(gāo)采(cǎi)烈(liè)背
- ·ST目药(600671)9月20日主力资金净买入134
- ·货从哪里来?货往哪里去?一文详细解读洋浦
- ·关于值(zhí)众(zhònɡ)柬(jiǎn)这是一条
- ·关于八连杀原唱背后真相是什么?
- ·房地产新政出台满月楼市一线观察
- ·什么是银行一类卡和二类卡有哪些区别?
- ·“英寸”和“寸”一字之差引纠纷
- ·保障劳动者包括午休在内的诸多权益
- ·反ESG运动在反什么?中国企业如何应对?
- ·逃亡之误闯异世怎么解读?
- ·非常静距离杜淳真实原因是什么