叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了

创建时间:2024-04-02 16:34
完全基于大模型自主推理,低成本硬件实现精细操作

 

将家务全部交给机器人的那一天,或许会比想象中更快到来。
还记得会炒菜的斯坦福 ALOHA 机器人吗?现在,中国的初创公司自变量机器人(X Square)展示了同样令人惊艳的能力,甚至更进一步。
 
在该公司最新展示的 Demo 中,完全基于大模型自主推理的双臂机器人,利用低成本硬件即实现对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,展现出相当程度的泛化性能。
 

折叠衣物(3 倍速播放):对柔性物体的操作长久以来都是困扰整个 manipulation 领域的难题,需要高度灵活的操作和精细的动作协调。

 

切火腿(2 倍速播放):复杂的摩擦和阻力,难以用传统方法快速建模,需要精确的力度控制与物体定位。

 

切黄瓜,2 倍速播放:在一种物体上习得的能力直接泛化到不同物体的操作上。

 

用海绵擦掉案板上的污渍(2 倍速播放):自修正的 close loop 控制能力,在不同压力和表面条件下的精细力度控制,实时检测并调整擦拭动作,确保彻底清洁污渍。

 

用勺子从罐子里取出适量的果汁粉(3 倍速播放):使用工具的过程中,处理复杂的摩擦一直以来都是极大难点。

 
冲果汁,举起水壶往杯中倒入适量的水(3 倍速播放):流体引入大量的随机性,准确操作非常困难。
 
这家去年底成立的公司,汇聚了来自世界著名人工智能 / 机器人学实验室以及国内外顶尖高校的优秀人才,拥有雄厚的科研背景。公司的目标是「将人类从无意义的体力劳动中解放出来」,专注于机器人领域的基础模型(foundation model)研发。
 
目前,团队正在构建一个具备从感知到行动的端到端能力的通用机器人大模型(“中枢神经”),目标是能够控制低成本硬件(如数千元的机械臂),完成包括烹饪、打扫卫生在内的日常家务,并在未来扩展到照顾老人和小孩等更复杂的家庭护理工作,以及完成其他达到人类水平的通用操作任务。
 
基于具身智能大模型,开发通用机器人平台
 
尽管机器人管家是人类对智能未来最具代表性的畅想,但在现实生活中,能够胜任家务劳动的通用服务机器人几十年来的发展一直困难重重。家庭环境的多样性和不可预测性要求机器人具备高度复杂的感知能力、灵活精确的机械操作、智能的决策和规划,以及有效的人机交互能力。此外,技术的集成、机器人的安全性、续航能力、成本等,也是必须克服的重要障碍。
 
传统的机器人通常采用基于规则和单一任务环境的方式,很难根据环境变化自主调整策略,从长远看也几乎不可能规模化。大语言模型(LLM)等人工智能技术的突破,为机器人领域带来了新的曙光。谷歌的 RT-2 系统将视觉-语言-动作模型与机器人技术相结合,使机器人能够处理复杂场景,并响应人类的指令。DeepMind 的 AutoRT 系统则使用视觉-语言模型(VLM),帮助机器人适应未知环境,并利用 LLM 来为机器人提供指令。大模型在知识迁移和泛化方面的这些优势,有望帮助机器人逼近甚至超越人类的水平。
 
X Square 认为,目前机器人领域正处于技术的代际更迭之际。斯坦福 ALOHA 等项目表明,通用机器人发展的瓶颈在于智能而非硬件。事实上,机器人领域长期以来面临的两大困难,一是如何在复杂环境中精确感知并做出精细的操作(low level 智能),二是缺乏类似人类的推理、规划、交互等高级认知能力(high level 智能)。从感知到行动,机器人的智能可以被视为一个从 high level 逐步到 low level 的决策过程。
 
大模型的出现为解决上述难题带来了新思路。运用 LLM 或 VLM 来进行高阶推理与规划、与人交互,已经成为业界公认的发展方向。
 
但是,直接用单一的大模型来驱动端到端的机器人 manipulation,目前尝试的团队还不多。
 
X Square 的独特之处便在于此,团队基于过往在模型、算法、系统、硬件等方面的科研成果积累,集合所有技能训练「机器人 Large Manipulation Model」,从手部操作切入,基于具身大模型来构建可以精细操作的通用机器人。
 
团队希望结合 high-level 的推理规划模型与 low-level 的操作控制模型,打造一个类似「机器人大脑-小脑」的通用操作系统。
 
「我们公司名为 X Square,寓意要同时在 high level 推理和 low level 控制这两个维度做大模型,并把两者有机结合。目前我们在两个方向都已有不错的基础,有信心在一年内从追赶到超越目前的世界领先水平。」
 
 
X Square 指出:「与腿的移动能力相比,手的操作能力包含了更丰富和复杂的动作,要求更高级别的控制精度。人类手部的精细操作是我们智能的根本表现。」
 
不同于很多人形机器人公司关注对人体形态的模仿,X Square 更关注实现接近人类的功能。「采用轮式移动底盘搭配双臂,可以大幅降低成本,2-3 年内整体硬件成本有望降至 1 万美元以下,我们认为放弃 5% 的人形功能来换取数量级的成本优势是值得的。」
 

软硬件一体,驱动数据飞轮

 

「我们希望模型拥有怎样的能力,就需要提供给模型什么样的数据。是数据,而非算法或结构决定了模型的能力,这是当今时代的核心方法论。」

 

机器人的特殊性在于,它是一个具有前所未有复合性的综合系统。相比纯软件的 LLM 和多模态大模型,具身智能大模型虽然在规模上暂时无法与之相比,但在工程上难度要高出许多,它必须在海量的真实和模拟场景中不断实践、学习。因此,能否找准技术方向,在降低开发成本和提高迭代效率的同时,打造高质量的数据采集能力,控制试错成本,最终实现规模化,是决定成败的关键因素。

 

这对团队软硬一体的能力提出了很高的要求,因为是否具有足够的软硬结合能力,在机器人这一多模态集中融合的领域直接关系到迭代速度与数据质量。软硬件一体发展,是 X Square 的核心理念。无论是机器人本体的形态设计,还是数据采集系统,都是为机器人「中枢神经系统」的开发在服务。

 

在模型算法设计上,X square 也有自己独特的理解和创新。「除了需要有专门的数据,还需要针对性的结构设计和训练方法,不能单纯套用其他领域的大模型经验,因为它必须直接面对复杂的真实世界,要在真实世界中不断实践、迭代。」

 

同时,由于大模型与传统 deep learning for robotics 具有相当的 gap,是否真正具备足够的大模型训练落地经验,决定了能否快速构建通用具身智能大模型。这也正是 X Square 的优势所在。

 

「目前语言大模型的训练预测架构在机器人上不完全work,以 Transformer 为底座算法模型不能很好地支持因果关系的推理,而因果性在机器人所在的物理世界中大量出现,并在机器人操作中起关键作用。为了处理因果性,目前有很多 world model 的尝试。但当前的世界模型要么完全集中在图像 / 视频重建上(如 Sora),要么完全集中在高层语义理解上,缺乏适合机器人的形态。」

 

X Square 笃定机器人大模型这个方向,一方面是基于团队成员亲历深度学习从被质疑到一统江湖,以及 LLM 从默默无闻到大放异彩的技术浪潮,另一方面,也是看好中国作为全球硬件中心,拥有得天独厚的产业链优势,也有利于快速缩短机器人的研发周期。

 

团队在不到 3 个月的时间里,就完成了技术架构的搭建和早期模型的训练,展现出惊人的成长速度和卓越的工程能力。

 

「在现阶段,我们也积极寻求与上下游合作伙伴的协作,实现智能的迭代升级。未来,随着具身智能大模型技术的日益成熟,我们会更聚焦于特定应用场景,推出自己的机器人产品,例如能完成做饭、打扫等复杂家务的机器人保姆,甚至进行老年人康养护理等服务。」X Square 表示。

 

 

 

 

 

浏览量:0

推荐文章

  • OpenClaw:开源 AI 个人智能助手与 AI 代理平台,构建你的专属数字分身

    在 AI 技术深度渗透日常工作与生活的当下,OpenClaw 作为一款现象级开源 AI 个人智能助手与 AI 代理平台,正打破传统 AI 工具 “只对话、不落地” 的局限,以 “本地优先、自主执行、开源开放” 的核心特性,成为个人与中小型团队打造专属数字分身的首选工具,重新定义了 AI 智能体在个人场景的应用形态与价值边界。

    2 2026-03-27
  • RTX PRO 5000系列深度解析:Pro 5000 Blackwell领航专业算力,英伟达显卡总代筑牢生态落地根基

    在专业图形计算与AI加速领域,英伟达始终占据核心引领地位,其推出的专业级显卡凭借顶尖性能与全栈生态优势,成为设计师、数据科学家、科研人员的核心生产力工具。其中,RTX PRO 5000(英伟达Pro 5000)作为专业级显卡家族的核心成员,历经技术迭代升级,衍生出Pro 5000 Blackwell这一革命性产品,依托Blackwell架构的突破性优势,重新定义专业算力边界。而英伟达显卡总代作为连接厂商与终端用户的核心枢纽,承担着产品分销、技术赋能、服务落地的关键职责,让RTX PRO 5000系列的顶尖性能真正渗透至各行业专业场景,构建起“厂商-总代-终端”的完整价值链条。

    2 2026-03-27
  • NVIDIA DGX Spark:桌面AI超算的革命性突破,重塑端侧专业算力体验

    在AI技术向精细化、高效化、端侧化延伸的今天,算力需求呈现出“两极分化”的鲜明特征——一方面,超大规模数据中心依托GPU集群支撑万亿参数大模型训练;另一方面,科研机构、中小企业、专业创作者对“端侧高性能算力”的需求日益迫切,既需要媲美数据中心的算力性能,又要求具备桌面级的便捷性与高性价比。在此背景下,英伟达推出的NVIDIA DGX Spark,作为桌面AI超级计算机(桌面AI超算)领域的标杆产品,彻底打破了“专业算力=大型机房”的固有认知,将高端AI算力浓缩于桌面形态,重新定义了桌面AI超算的核心价值,为端侧专业算力需求提供了最优解。

    2 2026-03-27
  • 四款主流VR设备深度对比:PICO NEO3、PICO 4 Ultra与HTC VIVE Focus Vision、HTC VIVE Cosmos实测解析

    随着XR技术的快速迭代,VR设备已从专业领域渗透至消费级市场、企业级应用等多个场景,成为连接虚拟与现实的核心载体。PICO与HTC VIVE作为全球VR行业的两大核心玩家,分别推出了覆盖不同层级、不同场景的代表性产品——PICO NEO3以高性价比打开消费级市场,PICO 4 Ultra主打高端沉浸式体验;HTC VIVE Focus Vision聚焦企业级专业场景,HTC VIVE Cosmos则兼顾消费与入门专业需求。本文将对这四款主流VR设备进行全面拆解,从硬件配置、体验感受、产品定位到适用场景,为用户提供清晰的选择参考,助力不同需求的使用者找到适配自身的VR设备。

    2 2026-03-27
  • 英伟达代理体系深度解析:从NPN到Elite精英代理,构建全栈AI生态赋能之路

    在AI算力产业飞速发展的今天,英伟达凭借其在GPU芯片、AI软件及数据中心解决方案领域的绝对优势,成为全球算力生态的核心引领者。而英伟达代理体系作为其生态落地的关键载体,串联起NPN合作伙伴网络、NVAIE认证、NVIDIA AI Enterprise软件套件、数据中心解决方案授权及Elite精英级别代理等核心环节,构建起“厂商-代理-终端用户”的完整价值链条,既实现了英伟达技术与产品的广泛落地,也为合作伙伴提供了多元化的发展机遇,推动AI技术在各行业的规模化渗透。

    3 2026-03-27
  • 算力革命背后的核心支撑:英伟达引领下,GPU集群、AI服务器与算力租赁的协同进化

    当生成式AI、大模型训练、自动驾驶等前沿技术进入规模化落地阶段,算力已成为数字经济时代的核心生产要素,如同工业时代的电力般不可或缺。而在这场算力革命中,英伟达凭借其领先的GPU技术,串联起AI服务器、GPU集群与算力租赁产业,构建起从核心硬件到场景服务的完整生态,其中英伟达SuperPOD更是成为超大规模算力交付的标杆,推动整个行业从“量的扩张”向“质的提升”加速转型。

    2 2026-03-27