
OpenAI的O1系列模型和DeepSeek-R1在研究识别模型方面引起了人们的兴趣,但是这些模型中的大多数都集中在数学和代码等专业领域。如何扩展理解代理和宝石物体领域的深层模型,从而使机器人能够通过思考和推理来完成诸如复杂接触之类的任务?最近,中国科学院和阿里巴巴软件研究所的一支团队建议与体现重新训练者一起,允许机器人或特工具有深入思考和互动的决策能力,以完成复杂的活动,例如研究环境,环境搜索,世界综合性,与环境相互作用,与环境相互作用,并与环境进行互动。可以想象将来有一天,机器人将帮助您找到钥匙,信用卡和其他在房间中容易忘记的小物品。它可以观察房间,学习和思考,然后寻找步骤,最后帮助您找到他们。纸张标题:具体性 - 宣传者:为具体交互式纸张活动的视觉搜索,推理和动作协同:https://arxiv.org/abs/2503.21696 Project homepage:https:// https:// bospodied-chinceer-chanceer.github.io代码地址:地址:地址:地址:地址:地址:https:// https://gitee.com/agiros/embodiedreasonerhttps://github.com/zwq2018/embodied_reasonerhuggingface: https://huggingface.co/datasets/zwq2018/embodied_reasoner understands a minute introduction to embodied-reasoner although deep thought of models math math skills in mathematics in具有令人满意的精力思维技巧和编码活动的数学,与对数学和代码等文本模式的评估不同,在体现的推理领域中,有许多重要的挑战:首先,体现模型在单个方向盘上是单个方向盘的不同,需要进行交互式交互式。他们应该继续与环境互动,收集视觉反馈并根据这些反馈(文本方式)采取合理的措施)。因此,该模型需要一次处理图形和文本交流输入的多个旋转,然后产生连贯的,对上下文推理和决策的敏感。其次,与主要依赖逻辑推理和专业知识的数学活动不同,在体现情况下的推理需要更多的贪婪能力,包括理解基于物理世界的多模式,共同的理解,对空间理解,理解时机的理解,理解时间和自我保护在面对环境相互作用后失败后,这会使大型模型更高。最后,当前的LLM主要以语言形式输出,并且不会直接控制机器人以执行物理关系。因此,如何设计一个合理的语义动作空间来使“行动”中的“思考”衰减也是一个困难。如今所示,当一个体现的代理正在寻找隐藏的对象时在一个未知的房间中,它必须使用身体上的理解来降低潜在的搜索区域(步骤1,3),了解Thosethings的空间关系以计划良好的探索路径(步骤1,5),并使用挫败感的时间来记住那些在以前尝试的尝试(步骤9)的人,同时反映了以前的失败。多方面的理解要求显示了多模式模型中的挑战。实验发现,即使是openai o3米尼等高级LLM,也常常发现在体现的互动活动中表现出可靠的推理和决策,并且容易受到反复搜索或不均匀行为的影响。基于上述挑战,团队建议体现的训练者建议扩大进行互动活动的思维能力的智力。这两个要点包括:纯文本模态似乎不是在求解长期以来的具体任务。因此,体现折磨器设计了一系列思想这与图片和文本交织在一起:思维思想思维,三个相互关联以提出一个真正的多模式链。该设计类似于最近推出的OpenAI O3和O4-Mini型号。它包括中间动作,例如图像编辑(缩放,裁剪等),还使用相互关联的图形和文本创建了多模式的思维链。旨在适应各种交互式阶段的不同思维因素,包括方案审查,任务计划,空间推理,便秘和大量验证。不同的思维因素可以促进模型从不同角度进行推理和思考。更新此功能,如上图所示,我们构建了一个数据引擎,该数据引擎会自动合成相互关联的观察思维 - 行动轨迹,该轨迹引入了不同的思维过程,以体现的情况,例如情境研究,空间推理,自我反省,自尊,自我自尊,一种自尊心。相互作用的,图像文本的交互式盖章模型学习如何根据其接触和空间布局的历史来计划和理由,从而增强其空间和时间理性的能力。从那时起,我们引入了一个三阶段的迭代过程,结合了模仿,自我反射和自我校正的研究。该过程首先使用合成轨迹进行模拟研究来培养基本的互动能力,然后通过拒绝提交微调来增强探索的能力,并最终通过反思和优化发展自我纠正能力。这是一个具体的示例:如上图所示,该模型需要空间推理,即基于理解,系统搜索无法解释的区域以及通过实时观察,同时重复观测,同时重复测试,同时搜索无法解释的计划,了解厨房布局和对象关系,较低的潜在位置(冰箱,餐桌)的能力,较低的潜在位置(冰箱,餐桌)的能力我的观察结果,而重复观察。技术环境环境解决方案和实时视觉观察。该实验使用120个独特的内部场景(例如厨房)和2,100个交互式对象(例如信用卡和微波炉)。 AI2 -Thokin R的API的API控制机器人(例如向前移动)和交互(例如选择对象),同时在每个步骤返回视觉观察。任务类别:机器人始于一个未知房间的角落,观看率有限,也就是说,只能看到房间的一部分。本节设计了阳光寿命中的四个常见交互任务,并且复杂性在以下内容中增加:搜索:在未知房间(例如主链)中搜索对象。它可以放置在某个地方或隐藏在容器中。操作:与对象联系,因为搜索搜索,例如“找到灯并在开关中”。运输:当找到隐藏的物体时,将其带到另一个位置。这涉及许多搜索和操作步骤。复合任务:涉及许多运输任务,例如“将鸡蛋放在微波炉中,加热它们并将其放在桌子上。之后,看...”。动作的定义:虽然AI2-TOR提供了许多低水平的动作,但本节中的活动侧重于高级计划和推理,而不是运动控制。此外,低水平的动作可能导致过度接触,因此本节与基于原子动作的9个高级动作集成:观察,前进,导航至{},put {},选择{},switch {},关闭{},{},turn {},{},转动{} {} {} {} {}和结束。通过开发适合体现情况的推理O1样式模型来综合“思维思维方式”的相互关联链。本节首先设计了一个具体的任务,该任务需要高级计划和推理,而不是运动控制的低水平,尤其是对隐藏对象的搜索。接下来,基于SIMU设计数据引擎综合交互式语料库交互式:活动指令和相应的主要动作 - 遵循行动。每个动作都会产生视觉观察,形成一个交互式轨迹。最后,数据引擎为每个动作生成了许多思想链,例如情境检查,任务计划,空间推理,反思和验证,从而在与思想记录相关的背景下创建ICORPUS交互式理解。综合设计基于物理环境的障碍(例如“从容器中拿出一个并放置B”)设计了各种任务模板。通过对象属性的过滤可行组合(必须挑剔,B应该是一个容器)。使用GPT-4O多样化教学风格。具有不同贫困梯度的任务是通过指导组合来构建的。序列合成隶属图的作用:数据引擎使用模拟器的元数据来产生从图。主要动作主:数据发动机使用开发的会员和合成指令模板的图表,以获得对行动(基本操作)所需的租赁的最低依从性。添加一个其他搜索过程:除了遵循基本操作 - 数据引擎外,数据引擎还将通过输入其他搜索过程来综合探索路径。观察行动的顺序在合成作用()的操作中插入了一个多样化的思维过程,从而创建了与图形相关的上下文:观察性思考 - 行动。 ,这代表了第一人称视角的形象。然后,数据引擎为每个动作(),数据引擎都会产生许多深入的思考内容,数据引擎具有交互式轨迹:多元化的心态:首先,本节是指五种思维方式,模拟乏味的推理,自我反射和双重验证。本章使用简洁的技巧来描述每种模式,指导相应的GPT-4O合成PRocess。从观察行动中推导思维:对于每个触点,数据引擎指导GPT-4O选择一种或多种思维模式,然后根据联系的上下文生成详细的思维。这些想法在观察和动作()之间插入,以提供合理的理由,同时与过去的思想保持一致。 )和下一步操作()。应将其视为最新的观察结果()激励GPT-4O,它产生了合理的思考过程()和即将进行的操作()。具体而言,数据引擎使用以前的触点轨迹(以多轮对话格式进行分页模型:考虑到接触轨迹遵循交织在一起的图像 - 文本格式(思维思考 - 行动),体现的折扣器将其修复在对话的多轮体内中。我们仅计算出对思想和行动的损失。 qwen2-vl-7b-7b-7b-7b-instructura,允许要了解交织的图像上下文文本,输出违规和动作令牌。通过微调获得体现的相互作用。第二阶段拒绝下沉微调,并学会找到:使用以前的阶段模型对大量生成的轨迹进行采样以进行进一步训练,并使用数据引擎评估这些采样轨迹。维持了6,246个成功的轨迹轨迹以正确维修,并最终获得了体现的探索器。第三阶段反映了微调:以前的阶段模型有时会执行不合理的动作,尤其是在诸如幻觉之类的互动活动的序列中。此外,机器人经常会遇到临时硬件故障,这需要模型显示不合理的行为,识别异常状态并按时纠正它们。如上图所示,第三阶段使用了体现的 - 探索器,该示例是先前任务中大量轨迹的样本。对于失败的轨迹RY,我们寻找第一个错误的动作并建立轨迹自我纠正。对于成功的轨迹,我们输入了模仿H的FailureSardware的例外状态。此步骤增加了2,016个反射轨迹(每个轨迹8.6步)。交织思维链分析的统计结果:我们合成9,390个独特的任务说明及其在三个培训阶段的思维思维,尤其是“场景,命令,相互关联的多模式思维链”。如下表所示,在第一阶段,数据引擎合成了1,128个轨道数据。在第二阶段,通过拒绝抽样来保持6,246个探索轨迹。在第三阶段,数据引擎合成了2,016个自我纠正轨迹。所有合成数据集涵盖107个不同的内部情况(例如厨房和客厅),包括2,100个交互式对象(例如鸡蛋,笔记本电脑)和2,600个容器(例如冰箱,抽屉)。都是thetrajectory包含64K的第一人称图像和800万的代币思考。任务任务:此外,我们已经在与培训方案不同的12个新情况下构建了809个测试用例。然后,任务说明是通过相应的主要动作和最终状态进行设计和标记的: