
尊龙凯时体育
这项始创性规划由新加坡国立大学Show Lab的规划团队完成,论文第一作家是慈海,通信作家是周正神教悔,团队成员还包括刘晓康、杨佩和宋怡东说念主。该规划于2024年12月发表在计较机科学机器东说念主学鸿沟的顶级期刊上,论文编号为arXiv:2512.09406v1。
机器东说念主学习一直面对着一个令东说念主头疼的问题:何如让机器东说念主像东说念主类一样灵巧地操作物品。传统方法需要多数的机器东说念主演示数据,这就像让一个生手学厨师,不仅需要无数次的试验操作锻练,还需要专科的厨房开辟和立志的食材。更忙活的是,收罗这些机器东说念主数据既费时又用钱,而且常常局限在实验室环境中,难以粗疏现实寰宇的复杂情况。
关系词,汇集上却有着海量的东说念主类操作视频——从作念饭、修理到各式手工制作,这些视频展示着东说念主类丰富各种的操作技巧。问题是,东说念主类的手臂和机器东说念主的机械臂在外不雅和通顺方法上存在远大互异,就像试图让一只鸟学习游水一样鬈曲。以往的搞定决策庸碌需要精准的录像头校准和复杂的手势识别,这在处理汇集上简约拍摄的视频时常常失效。
规划团队提议了一个深邃的搞定决策——H2R-Grounder框架。这个系统的中枢念念想是创建一种"通用话语",既能态状东说念主类的动作,也能携带机器东说念主的行径。就像翻译官梗概在不同话语之间架起交流桥梁一样,这个系统梗概将东说念主类的操作视频调治成机器东说念主不错意会和实践的请示。
一、创建机器东说念主和东说念主类之间的通用抒发
规划团队的第一个冲突是发明了一种叫作念H2Rep的抒发方法。这种抒发方法就像是一种简化的手语,用简单的符号来暗示复杂的动作。具体来说,他们把任何操作动作领悟成两个基自己分:一个是操作家(不管是东说念主手如故机器东说念主夹爪)的位置和标的,另一个是周围环境和物品的景色。
在处理机器东说念主锤真金不怕火视频时,规划团队接收了一种类似"抠图"的技巧。他们使用Grounded-SAM2这么的先进视觉分割器用,精准地将机器东说念主手臂从视频中移除,就像用魔法橡皮擦一样干净利落。同期,他们将机器东说念主夹爪的六维位置信息(包括三维坐标和三维旋转角度)投影到二维画面上,用一个简单的红点暗示位置,用蓝色箭头暗示标的。
这个过程就像制作动画顷然的分层技巧。底层是干净的布景环境,上头叠加着简单的位置率领符号。通过半透明的搀杂技巧,最终得到的H2Rep既保留了环境信息,又了了地标示了操作轨迹。这种抒发方法的深邃之处在于,它详尽掉了具体是东说念主手如故机器东说念主夹爪的外不雅互异,只关怀动作的试验。
二、锤真金不怕火机器东说念主视频生成模子
有了H2Rep抒发方法后,规划团队启动锤真金不怕火一个梗概把柄这种抒发生成果然机器东说念主操作视频的模子。他们选拔了Wan 2.2这个刚毅的视频扩散模子当作基础,这就像选拔了一个也曾很有绘图天资的艺术家来进行罕见锤真金不怕火。
锤真金不怕火过程接收了一种叫作念"情境学习"的战术。与传统的重新锤真金不怕火不同,这种方法只需要治愈模子的一小部分参数(使用LoRA技巧),就像给一个造就丰富的画家提供新的画笔技巧,而不是让他从新学习绘图。这么作念的平允是既能快速适合新任务,又能保持模子原有的刚毅才调。
在锤真金不怕火数据的构建上,团队使用了Droid数据集,这是一个包含约76000个第三东说念主称视角Franka机械臂操作视频的大型数据库。每个视频都被措施化处理成1280×720永诀率,况兼帧率治愈为每秒10帧,确保锤真金不怕火的一致性和效果。
模子的学习方针很明确:给定H2Rep抒发(包含环境布景和动作轨迹),生成对应的果然机器东说念主操作视频。这个过程使用了流匹配方针函数,通过束缚优化来提高生成视频的质料和果然性。
三、从东说念主类视频到机器东说念主动作的调治
迎面对一个新的东说念主类操作视频时,系统最初需要索求出对应的H2Rep抒发。这个过程包括几个要害方法,每一步都经过悉神思划以确保准确性和鲁棒性。
东说念主物分割和姿态忖度是第一步。系统使用Grounded-SAM 2.1来精准识别和分割视频中的东说念主物,同期哄骗ViT-Pose来忖度东说念主体姿态,定位手部区域。接着,HaMeR模子被用来精准忖度手部姿态,细目手指和拇指的位置。规划团队将食指指尖和拇指指尖的中点当作手部位置的代表,将拇指的标的当作手部朝向的率领。
这种手部姿态的索求方法经过了多数实验考据,梗概很好地对应机器东说念主夹爪在操作任务中的位置和标的。天然东说念主手和机器东说念主夹爪在结构上有很大互异,但在实践持取、迁移等基本操作时,它们的通顺轨迹和空间关系具有相似性。
东说念主物移除关节使用了Minimax-Remover这一先进的视频树立器用。经过对比实验,规划团队发现这个器用在保持布景一致性和移除东说念主物完好性方面都优于其他选拔,如E2FGVI等。移除东说念主物后的布景视频为机器东说念主的出现提供了干净的舞台。
终末,系统将索求的手部轨迹渲染成与锤真金不怕火时相通的红点和蓝箭头体式,并使用相通的半透明搀杂技巧叠加到布景视频上,酿成完好的H2Rep抒发。
四、实验考据和性能对比
为了考据H2R-Grounder的有用性,规划团队进行了全面的实验评估,涵盖了定量方针、东说念主类主不雅评价和与现存方法的详备对比。
在定量评估方面,团队使用Droid数据集的50个保留视频当作考据集,接收SSIM(结构相似性方针)和LPIPS(感知图像补丁相似性)来揣度生成视频与果然视频之间的相似度。放胆披露,H2R-Grounder在5B参数配置下达到了0.82的SSIM分数和0.22的LPIPS分数,标明生成的视频在视觉质料和时序一致性方面都推崇优秀。
为了测试系统在试验应用中的推崇,规划团队选拔了DexYCB数据集进行跨域评估。这个数据集包含了在受控实验室环境中拍摄的东说念主机交互视频,但在布景和动作溜达上与锤真金不怕火数据存在彰着互异。团队选拔了来自01号受试者在932122062010录像头顶视角度下的100个视频当作测试集,并接收王人备自动化的处理经由,不使用任何东说念主工标注的掩码或姿态信息。
东说念主类主不雅评价是考据系统实用性的伏击方针。规划团队邀请了22名具有计较机科学布景的评估者,要求他们从动作一致性、布景一致性、视觉质料和物理合感性四个维度对不同方法的放胆进行排序。评估放胆披露,H2R-Grounder在总计四个维度上都取得了最高的首选率:动作一致性54.5%、布景一致性56.8%、视觉质料61.4%、物理合感性63.6%。
与现存方法的对比披露了H2R-Grounder的显赫上风。贸易化视频裁剪器用如Kling和Runway Aleph天然在视觉效果上有一定推崇,但在动作一致性和物理合感性方面推崇较差,生成的机器东说念主手臂庸碌出现结构变形或与环境物体的分歧理交互。RoboMaster当作基于动画的方法,需要多数东说念主工标注,在天然度和布景一致性方面都存在彰着不及。
五、技巧细节和更动冲突
H2R-Grounder的技巧更动主要体当今几个要害方面。最初是无配对数据锤真金不怕火范式的建立。传统方法庸碌需要同期收罗东说念主类和机器东说念主实践相通任务的配对视频,这在试验中极其鬈曲且资本立志。H2R-Grounder王人备幸免了这一需求,仅使用现存的机器东说念主数据集和汇集上的东说念主类视频,大大缩短了数据收罗的门槛。
情境学习战术是另一个伏击更动。通过只锤真金不怕火轻量级的LoRA适配器而保持骨干模子冻结,系统既能快速适合机器东说念主视频生成任务,又能保持刚毅的泛化才调。这种方法使得模子梗概处理锤真金不怕火时未见过的场景和动作,在面对汇集视频的各种性时推崇出细密的鲁棒性。
H2Rep抒发方法的筹备兼顾了信息保留和计较遵守。比较于使用两路分离视频流(一说念布景,一说念轨迹),搀杂抒发方法将计较和内存需求缩短了四倍,同期保持了迷漫的抒发才调。这种筹备选拔在试验部署中具有伏击兴趣。
在视频树立技巧的应用上,团队通过详备的对比实验选拔了最相宜的器用。Minimax-Remover在机器东说念主手臂移除任务上的推崇彰着优于E2FGVI等其他选拔,梗概更好地保持布景的完好性和一致性。
六、系统局限性和将来发展标的
尽管H2R-Grounder取得了显赫后果,但规划团队也坦诚地指出了现时系统的局限性。最主要的戒指是面前只复旧单手到单臂的调治。在试验应用中,好多复杂的操作任务需要双手妥洽完成,比如拧开瓶盖、折叠衣物等。推广到双手操作场景需要相应的双臂机器东说念主数据和更复杂的妥洽机制。
另一个伏击戒指是机器东说念主类型的特定性。由于锤真金不怕火主要基于Droid数据汇聚的Franka机械臂,系统面前只可生成这种特定类型的机器东说念主操作视频。要适合其他类型的机器东说念主(如不同的夹爪筹备、不同的臂长比例等),需要针对每种机器东说念主类型锤真金不怕火特定的LoRA适配器或从新进行微调。
在性能方面,现时的5B参数模子在单个H200 GPU上生成49帧704×1280视频需要约648秒,平均每帧13秒。天然生成质料较高,但关于及时应用来说仍有优化空间。规划团队尝试了14B参数的更大模子,但发现性能擢升有限,反而带来了更高的计较资本和更短的序列长度戒指。
将来的发展标的包括几个伏击方面。最初是推广到更多机器东说念主类型和操作场景,建立更通用的跨机器东说念主调治才调。其次是擢升计较遵守,通过模子压缩、并行化等技巧缩短生成时刻。第三是增强对复杂场景的处理才调,包括多物体交互、覆盖处理等挑战本性况。
七、试验应用远景和影响兴趣
H2R-Grounder的奏凯为机器东说念主学习开辟了新的可能性。传统的机器东说念主妙技学习常常局限于实验室环境中的特定任务,而这项规划展示了利用互联网丰富视频资源的远大后劲。从厨师切菜、木匠制作到艺术创作,东说念主类在各个鸿沟的小巧操作妙技都可能成为机器东说念主学习的起源。
在工业自动化鸿沟,这项技巧有望加快机器东说念主在复杂安设、精密制造等场景中的应用。传统的机器东说念主编程需要多数的专科常识和时刻进入,而基于视频的学习方法可能让更多的工东说念主参与到机器东说念主妙技传授中来,酿成愈加民主化的自动化发展模式。
在事业机器东说念主鸿沟,H2R-Grounder不错匡助家用机器东说念主学习更各种化的家务妙技。通过不雅看烹调视频学习作念饭、通过清洁视频学习整理房间,机器东说念主的才调界限将大大拓展。这种学习方法更靠近东说念主类的说明模式,也更容易被平日用户意会和接受。
栽培和培训是另一个伏击的应用鸿沟。通过将大众的操作妙技调治为机器东说念主演示,不错创建措施化的锤真金不怕火环境,让学习者在安全、可访佛的条目下锻练复杂妙技。这关于医疗手术、精密制造等高风险鸿沟尤为伏击。
从更稠密的视角来看,这项规划体现了东说念主工智能发展的一个伏击趋势:从需要多数标注数据的监督学习,向梗概利用现存丰富媒体资源的自监督学习改造。跟着视频生成技巧的束缚卓越,咱们有事理期待一个机器东说念主梗概通过不雅察东说念主类行径快速学习新妙技的将来。
说到底,H2R-Grounder不单是是一项技巧冲突,更代表了一种新的念念维方法:将东说念主类的丰富造就飘浮为机器不错意会和实践的常识。这种飘浮不是简单的效法,而是在保持动作试验的同期适合不同的物理形态。就像一个优秀的翻译家不仅要懂两种话语,还要意会两种文化的精髓一样,H2R-Grounder在东说念主类贤达和机器才调之间建立了一座实在的桥梁。这座桥梁的兴趣远远超出了技巧自己,它预示着一个东说念主机结合愈加风雅、机器学习愈加高效的未下寰宇。
Q&A
Q1:H2R-Grounder是什么技巧?
A:H2R-Grounder是新加坡国立大学开发的一项冲突性技巧,梗概让机器东说念主通过不雅看平日的东说念主类操作视频来学习各式小巧的操作妙技,比如持取、迁移物品等,而不需要罕见收罗立志的机器东说念主演示数据。
Q2:这项技巧何如搞定东说念主类手臂和机器东说念主手臂互异很大的问题?
A:规划团队发明了一种叫H2Rep的通用抒发方法,将复杂的操作动作简化为位置点和标的箭头的组合,就像创造了一种机器东说念主和东说念主类都能意会的"手语",深邃地跨越了外不雅互异,专注于动作的试验。
Q3:H2R-Grounder生成的机器东说念主视频效果何如?
A:把柄22名专科评估者的测试,H2R-Grounder在动作一致性、布景一致性、视觉质料和物理合感性四个方面都取得了最高分,生成的机器东说念主操作视频不仅外不雅传神,而且梗概准确效法东说念主类的操作轨迹,终局合理的物体持取和迁移。
