开元,开元棋牌,开元体育,开元棋牌入口,开元APP,开元棋牌官网,开元棋牌官方网站,开元官方网站,开元棋牌APP下载,开元棋牌网站,开元棋牌下载,开元棋牌app下载,开元棋牌试玩,开元体育app下载
据介绍,R1-Code-Interpreter 工作是研究团队整个大课题的一部分:把符号计算与基于大模型的推理规划结合起来(Neuro-Symbolic Foundation Models for Reasoning and Planning)。现在的大模型推理规划基本都是直接基于纯神经网络以及文字推理来进行。但是,有很多任务都是需要基于符号来计算优化的,比如要让大模型帮用户规划旅行路线,整个机票、酒店、时间、地点和交通的选择都是在预算、偏好、行程和价格等因素下的优化与规划问题。再比如,机器人中典型的任务与移动规划。前段时间特别火的“9.9 和 9.11 比大小”还有“strawberry 里面有几个 r”等问题,让大模型生成代码来解决这些问题比直接文字推理要简单容易得多。
明确了这个方向之后,研究团队先测试了一下目前 OpenAI 的 Code-Interpreter,借此发现目前 OpenAI 训练的 GPT-4o+代码执行器有很多问题,比如有些任务很明显使用生成代码来解决会更好,但是其实模型仍然会选择自己用文字推理,然后导致出错。研究团队还发现,即使通过调整提示词引导模型生成代码来解决任务,生成的代码也会经常包含无效的代码,未能充分利用符号计算。最新的推理模型 o1、o3 还有 DeepSeek-R1 也被发现存在这些问题。后来,研究团队把所发现的现有 Code-Interpreter 的问题总结成论文,并以《在代码执行与文本推理之间引导大型语言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)为题发表在 2025 国际学习表征会议(ICLR,International Conference on Learning Representations)[3]。
而为了解决这些不足,研究团队尝试训练模型来提高自如运用代码执行器的能力。其中涉及到两个方向:一是额外训练一个辅助的模型来指导主模型的生成,好处是辅助模型的尺寸和训练难度都要小很多,而且可以通过用最强的主模型来探测现在能达到的最强能力。二是直接微调单个模型来兼顾纯文字推理以及符号计算的能力,这对基础模型的能力要求比较高。研究团队一开始尝试的是第一种方法,训练出来的 CodeSteer[4] 能够让 GPT-4o 在 8B 模型的指导下,充分利用符号计算来解决很多推理规划问题,甚至在很多任务上比 o1 和 DeepSeek-R1 的表现还好。第二种方法就是研究团队在此次 R1-Code-Interpreter 工作中所探究的。