发布日期:2024-10-17 10:29 点击次数:70
小引:TeleAI 李学龙团队建议具身全国模子黑丝 做爱,挖掘深广东谈主类操作视频和小数机器东谈主数据的共同决策模式。
当你在绿茵场上进行一场垂危刺激的足球比赛时,大脑会像一位正式的导演,不时地在脑海中预演着比赛的下一步发展。你会思象怎样带球糟蹋对方防地、怎样与队友合营制造进球契机等。
这种内心的思象是基于丰富的比赛教会、对足球划定的深远剖析以及对队友特色的纯熟。
大脑大概连忙从顾忌中索求信息,迷惑刻下的比赛景色,筹备将来可能出现的场景,并以近乎动画的形式在脑海中连忙败露,匡助东谈主类作念出更好的决策。
正如足球比赛中展现的同样,大脑的预演才调实质上是一个精简版的"全国模子",通过模拟将来可能发生的情景来教授东谈主类行为。
受此启发,具身智能盘问中有望通过构建访佛的"视频筹备模子"手脚机器东谈主"全国模子",通过历史序列和实时不雅测,筹备将来可能发生的事件,变成对机器东谈主将来行为的视频筹备。
全国模子给机器东谈主提供了一个"内心预演"的器用,大概在实质吸收行动之前评估可能的行动决策及后果,匡助机器东谈主进行决策。
近期,中国电信集团 CTO、首席科学家、中国电信东谈主工智能盘问院 ( TeleAI ) 院长李学龙解释率领团队基于弥远以来在扩散噪声、正激发噪声、张量噪声等噪声分析的基础上,对具身全国模子构建中的样本效劳难题进行了深入盘问,在少样本驱动的具身全国模子构建方面迈出了进攻的一步。
这项使命建议了全新的具身视频噪声扩散模子的磨练步调,通过充分挖掘深广东谈主类操作视频和机器东谈主操作的共同模式,在仅使用小数具身数据的情况下磨练高效的具身全国模子。
论文由TeleAI 院长李学龙解释、TeleAI 盘问科学家白辰甲博士结伴香港科技大学、上海交通大学、上海东谈主工智能实验室等单元共同完成,近期被国外东谈主工智能顶会 NeurIPS 2024 请托,HKUST 在读博士何浩然为该论文的第一作家。
盘问动机
构建通用的机器东谈主全国模子是一项弥远的挑战。尽管以 Sora 为代表的视频生成模子在通用视频生成中有出色的弘扬,但依赖于对大规模视频数据集学习。
然则,在具身智能领域,高质地的机器东谈主操作视频的获取詈骂常宝贵的,且不同类型的机器东谈主数据难以通用。具身全国模子的学习格外具有挑战性,亟需一种通过小数数据学习的通用具身全国模子构建步调。
本盘问建议,能否期骗在其他相似领域的大规模视频数据,突出是东谈主类操作视频来匡助学习具身全国模子?东谈主类在试验场景中第一视角的物体操作视频和机器东谈主操作任务具有高度的相似性,包含了物理全国的交互信息,并具有多元的任务场景、复杂的视觉布景、种种的物体类型,大概匡助具身全国模子学习物体操作的先验学问。
近期部单干作运转期骗东谈主类操作数据来政策学习,然则局限于从东谈主类视频中索求图像表征或 Affordance 区域,忽略了东谈主类操作视频中蕴含的丰富的时序信息的行为决策信息,不同于现存步调,本盘问建议构建基于东谈主类操作的视频筹备(video prediction)来进行全国模子构建,同期通过小数含有动作的机器东谈主数据获取可践诺的政策,充分挖掘在东谈主类操作视频和机器东谈主数据上长入的决策行为模式。
为了灵验期骗深广东谈主类数据,本步调想象了预磨练(pre-training)和微调(fine-tuning)的框架,前者不错盲从 scaling law 快速彭胀到大规模的东谈主类操作视频数据集,后者不错期骗小数机器东谈主数据快速移动至卑劣任务。举座框架如图 1 所示。
△图 1:算法举座框架
本步调从大规模东谈主类操作数据集(如 Ego4d)中学习长入的视频表征,使用深广无动作视频构建自监督的视频筹备扩散模子手脚预磨练任务,并在小数有动作璀璨的具身数据上进行高效策稍稍调,大概使通用东谈主类操作视频中编码的物理全国先验学问稳当于具身环境模子构建,鄙人游任务中期骗小数机器东谈主轨迹即可在通用机械臂操作任务会聚中获取优异的性能。
盘问步调
本文步调从三个方面期骗东谈主类操作数据构建具身全国模子,结束高效的具身政策学习:
在深广东谈主类操作数据和小数机器东谈主数据中构建长入的、可泛化、可移动的视频表征;
构建自监督筹备任务进行轨迹层面举座建模,结束东谈主类和机器东谈主通用的具身视频筹备;
新颖的扩散架构结束可彭胀的东谈主类视频学习,同期在小规模机器东谈主数据上快速泛化。
东谈主类和机器东谈主数据的长入 token 化
为了从数据散布极广的各种视频数据中索求灵验的信息输入进行全国模子构建,建议构建东谈主类视频和机器东谈主视频长入的视频编码。
使用 VQ-VAE 将高维视频片断压缩成信息丰富的闹翻化潜在 token,不仅为搀杂视频提供了长入的码本,还裁减了东谈主类和机器东谈主视频之间的域各异。通过将一语气特征调理为闹翻空间,索求出东谈主类和机器东谈主操作的共同模式。
此外,通过长入的动作闹翻化步调将动作空间的一语气维度闹翻化成有序的整数,使机器东谈主的动作不错通过闹翻的 token 来暗示,为后续的预磨练和微调阶段提供了便利。
通过这种方式,大概将东谈主类视频中的动态行为模式和机器东谈主的动作请示长入起来,构建出一个大概处理大规模视频数据并索求有用特征的框架。见图 2 第一阶段所示。
△图 2:三阶段学习框架闹翻扩散模子的视频筹备学习
在视频筹备模子的磨练阶段,期骗闹翻扩散模子从深广东谈主类视频中索求与物理交互相干的普适学问。具体的,给定一段历史视频和文本手脚 prompts,期骗大规模扩散模子筹备将来视频 token 序列。
当模子能很好地剖析交互模式并筹备到准确的将来轨迹时,智能体大概对将来可能发生的行为进行预估,从而用该信息去教授卑劣任务的决策进程。
为了处理信息量丰富的闹翻视频编码,而且赞成建议的预磨练及微调的两阶段磨练模式,建议抒发力极强的闹翻扩散模子(Discrete Diffusion)架构进行视频建模。
模子磨练中通过引入一个掩码和替换的扩散政策,大概学习到视频中的动态变化礼貌,并生成在潜在空间中具有连贯性的将来视频 token。
这一进程不仅波及对视频内容的剖析,还包括对视频潦倒文的深入分析,从而为机器东谈主政策学习提供了丰富的先验学问。见图 2 第二阶段所示。
全国模子驱动的具身政策学习
通过从大规模东谈主类数据会聚学习全国模子,模子仍是编码了的普适的视频筹备模式,鄙人游机器东谈主任务中仅需要依赖小数机器东谈主数据就大概快速的学习政策。
具体的,建议了基于小数样本的微调政策,通过冻结预磨练模子并仅调治动作学习鸠合的参数,大概在有限的机器东谈主数据集上快速稳当并筹备动作序列。
在预磨练阶段模子使用 Perceiver Transformer 手脚噪声扩散模子的骨干鸠合,在微调阶段使用 GPT2 手脚骨干鸠合以便于在小规模机器东谈主数据会聚进行政策学习。
这一微调进程灵验地将从东谈主类视频中学到的丰富视频筹备学问滚动到机器东谈主限度任务中,显耀升迁了机器东谈主在多任务操作中的性能和样本效劳。见图 2 第三阶段所示。
实验末端
本步调在单视角视觉不雅测的机械臂操作任务集和使用多视角不雅测的 3D 操作任务会聚中评估灵验性。
末端发现,论文建议的步调不错在东谈主类物体操作和机器东谈主物体操作中到手筹备准确的将来通顺轨迹,不管是单视角如故多视角,这些王人通过一个闹翻扩散模子生成。
下方视频炫夸了步调在合成东谈主类操作视频方面的效果。在复杂的东谈主类物体操作场景中,本文步调大概精准的建模东谈主类手部的通顺细节和通顺轨迹,从而在构建全国模子中为机器东谈主末端的通顺提供教授。
进而,通过东谈主类视频和机器东谈主视频的长入 token 编码,东谈主类操作视频的筹备学习大概极大的匡助模子在小数机器东谈主视频中学习具身全国模子。下方视频炫夸了机器东谈主操作任务中,本步调大概准确说明当然话语请示对机械臂将来的轨迹进行筹备和揣测打算,从而教授下一阶段的机械臂动作筹备。
此外,通过对小数真正机械臂操作视频的学习,全国模子不错快速泛化到对真正机械臂视频产生准确的筹备,从而教授真正机械臂的政策学习。
通过具身全国模子的构建,模子大概在小数带有动作璀璨的数据中进行快速微调,从而使模子大概产生实质的机器东谈主动作决策序列,教授卑劣任务的学习。
底下炫夸了在 RLBench 任务中的政策践诺效果。通过多视角的视频筹备,全国模子大概全概念筹备机器东谈主的周围环境变化,从而教授机器东谈主在三维空间中进行复杂的任务决策。
盘问回归
该恶果建议了一种少样本的高效具身全国模子架构和磨练步调,通过想象长入 token 编码、闹翻噪声扩散模子为基础的通顺轨迹(视频)预磨练、以及小数机器东谈主数据的学问移动和泛化,大概使用东谈主类操作视频的行为模式教授机器东谈主进行决策,从而贬责了机器东谈主数据代价腾贵的问题。
建议的步调不错活泼地处理各式视频输入的机械臂操作任务,包括单视角 2D 操作、多视角相机 3D 操作、真正机械臂操作等,为全国模子迈向机器东谈主作念出了进攻孝敬。
团队认真东谈主先容: 李学龙,中国电信集团 CTO、首席科学家,中国电信东谈主工智能盘问院(TeleAI)院长。主要热诚东谈主工智能、临地安防、图像处理、具身智能、噪声分析。
论文称呼:
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
论文贯穿:
https://arxiv.org/abs/2402.14407
技俩地址:
https://video-diff.github.io
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 技俩主页贯穿,以及斟酌方式哦
咱们会(尽量)实时复兴你
点这里� � 热诚我,铭刻标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~