Claw智能体的语音入口战悄悄打响

日前，小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等终端，支持语音唤醒与多轮对话。

这有望突破小爱同学“听不懂、接不上”的理解瓶颈，通过近乎“零门槛”的自然语义交互，推动大众市场的AI体验实现实质性提升。

依托庞大的IoT设备基数，小米有望规模化捕获高价值的“决策轨迹数据”，为MiMo大模型的调用提供训练场；

从行业层面来看，这一趋势并非个例。除了小米，华为、百度等都在积极接入claw音频互动功能，以此提升用户调用Agent的积极性。

在“入口驱动数据生成、交互反哺模型优化”的逻辑下，一场围绕语音入口、执行能力与数据闭环的竞争正在加速展开。

轨迹数据的稀缺性

智能音箱或语音助手早已不是新物种。

行业面临的现实尴尬是，“小爱同学”等语音助手受限于传统技术，过去往往只能充当执行“定闹钟”、“切歌”等单向指令工具。

一旦用户的表达模糊或需求复杂，这些语音助手就容易暴露出“听不懂、接不上”的短板，导致智能体验大打折扣。

随着大模型技术的应用，这一行业现状正在发生实质性改变。

小米基于MiMo大模型推出的“miclaw”，不仅覆盖了PC与Mac端，还将其部署在其有屏音箱上。

音频版的“miclaw”首要解决的痛点便是提升产品体验的智能化程度。

小米音箱计划最新上线的miclaw已支持用户通过一句话下达复杂任务指令，具备语音唤醒与多轮对话的功能，并支持调用手机、PC执行。

这意味着，未来的小米音箱将不再只是机械的“一问一答”式指令接收器，有望结合上下文记忆，深度挖掘并理解用户的“言外之意”，进而在复杂、日常甚至口语化的语境中，执行更为复杂的任务。

除了小米，百度小度音箱、华为的小艺claw等均已在不同维度上接入了语音交互功能。

在不少行业人士看来，大厂相继在硬件中接入音频版claw底层的商业逻辑是这种不需要学习菜单，不需要注视屏幕的近乎“零门槛”交互，可以最大限度地降低AI的交互门槛，真正打入大众市场的基本盘。

“这样的话会使得整个入口更加自然，使用门槛降低，相当于家庭成员都可以体验，AI能够尽快融入到生活日常中。”北京某大厂的架构师向全天候科技解释。

事实上，为了支撑这种近乎“零门槛”的自然交互，小米本身也在积极加入对音频等多维度数据的底层训练。

早在小米2025年12月发表的一篇名为《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明确指出：未来，小米将进一步依托其硬件生态，将音频、毫米波信号等更多感知模态纳入统一的多模态学习框架。通过对多类异构感知输入进行联合推理，最终实现全方位的家居场景理解与精细化空间感知。

要实现从多模态感知到端侧部署的全面落地，离不开海量硬件设备所提供的数据土壤与应用环境，而这确实是小米的优势。

截至2025年末，小米AIoT平台已连接的IoT设备数（不包括智能手机、平板及笔记本电脑）达到10.79亿台，同比增长19.3%，同期米家APP、小爱同学的月活跃用户数分别1.13亿、1.6亿。

庞大的设备基数所带来的规模效应，使得小米更有利于实现对高价值“决策轨迹数据”的规模化抓取与持续沉淀。

在真实的物理世界中，Agent调用工具、执行设备控制的决策轨迹数据极为稀缺。

传统的软件系统或基础智能家居，往往只记录最终的“执行状态”，但真正能够驱动AI自主运行的是捕捉“为什么这么做”的决策链条。

高价值的决策轨迹数据不仅包含执行结果，更涵盖了触发该动作的完整上下文。

例如理想情况下，系统记录下“由于光线传感器识别到环境变暗，且门锁日志显示用户刚刚归家，因此决定开启客厅灯光并拉上窗帘”。

这种融合了多模态环境输入、触发规则和动作输出的完整信息，是指导Agent进行复杂决策的关键素材。

要获取这类数据，系统必须身处用户的“执行路径”之中，才能在决策发生的第一时间完成捕获。

小米庞大的AIoT设备网络，实质上构成了消费级物理世界中覆盖面极广的执行路径。通过海量设备的日常协同，这些单次的决策轨迹被持续沉淀，有望交织成一张动态的“上下文图谱”。

这能够客观呈现用户在不同时空下的作息规律、温度偏好及跨设备调用习惯。随着数据闭环的不断完善，系统便具备了更高的预判能力。

不过有效数据的实际产出率仍然取决于用户的使用情况，例如用户是否有足够的动力设置复杂自动化场景等。

新的入口战

围绕语音等交互入口，各类claw产品正加速落地。

百度claw、华为小艺claw等均在不同硬件上实现了语音交互能力的接入，并逐步从单轮指令响应，向多轮对话与任务执行能力演进。

阿里旗下的天猫精灵虽未冠以“claw”之名，但也在其全屋智能2.0方案中深度融合通义大模型能力，构建出“空间智能Agent”，进行智能化决策。

当语音入口逐渐被Agent化，缺席即意味着在下一代人机交互体系中失去关键位置。

这一轮集中布局背后是一次围绕“使用门槛与数据积累”的前置竞争。

作为最接近自然语言的交互方式，语音本质上承担着降低用户使用成本、提升渗透率的角色，让设备交互变得更加无缝。

只有当用户在日常场景中频繁使用Agent，各家厂商的模型才能持续获得真实的任务请求与执行反馈，从而不断优化决策与执行能力。

正因如此，当前阶段的核心在于是否能够让用户“先用起来”，通过高频使用形成数据闭环，再反向推动能力迭代。

在这一过程中，入口演化为连接用户行为与模型进化的关键基础设施，这已经在部分产品形态中出现苗头。

在一些头部厂商的实践中，语音不再只是触发单一设备或功能，而是开始承接跨设备的连续任务。

例如，用户用一句相对模糊的表达发起请求，系统会在后台拆解意图，并联动多个终端完成一整套动作。

在这一过程中，被调用的不再是某一个具体设备，而是一整条由系统组织起来的执行链路。

当交互从“点状指令”转向“任务链路”后，语音的角色不仅局限于降低使用门槛的入口，还成为实际承担任务调度的起点。

用户不再显式选择应用或设备，而是将需求交由系统统一分发。

这也使得入口竞争的重心发生偏移。厂商争夺的不仅限于用户是否开口使用语音，而是这些请求最终由谁来拆解、由谁来决定调用路径。

一旦这一环节被第三方承接，即便硬件仍在原厂商手中，服务分发与用户决策路径也可能逐步外移。

不过，在多方竞逐之中，不同厂商的底层禀赋差异开始放大。

和小米类似，华为的重要优势在于更加自研化的操作系统与硬件生态，早在2024年鸿蒙生态设备规模便已进入9亿级量级，小艺能力覆盖手机、平板、可穿戴及智能家居等多类终端，形成跨设备的统一交互网络。

这种“入口即数据、设备即执行”的竞争逻辑也在反向塑造互联网厂商的策略选择。

例如字节跳动在大模型与应用层具备优势，但在终端入口与系统级调度能力上相对薄弱。

由于在Agent逐步从“对话能力”走向“执行能力”的过程中，仅依赖App形态难以深度嵌入用户的日常决策路径，也难以获取高频、连续的任务反馈数据，字节跳动去年以来便频繁与手机厂商洽谈“豆包手机”的合作路径。

2026年，AI能力的比拼正在从“交互竞争”走向“执行竞争”。