日前,小米宣布基于MiMo大模型推出“miclaw”并部署于音箱等终端,支持语音唤醒与多轮对话。
这有望突破小爱同学“听不懂、接不上”的理解瓶颈,通过近乎“零门槛”的自然语义交互,推动大众市场的AI体验实现实质性提升。
依托庞大的IoT设备基数,小米有望规模化捕获高价值的“决策轨迹数据”,为MiMo大模型的调用提供训练场;
从行业层面来看,这一趋势并非个例。除了小米,华为、百度等都在积极接入claw音频互动功能,以此提升用户调用Agent的积极性。
在“入口驱动数据生成、交互反哺模型优化”的逻辑下,一场围绕语音入口、执行能力与数据闭环的竞争正在加速展开。
轨迹数据的稀缺性
智能音箱或语音助手早已不是新物种。
行业面临的现实尴尬是,“小爱同学”等语音助手受限于传统技术,过去往往只能充当执行“定闹钟”、“切歌”等单向指令工具。
一旦用户的表达模糊或需求复杂,这些语音助手就容易暴露出“听不懂、接不上”的短板,导致智能体验大打折扣。
随着大模型技术的应用,这一行业现状正在发生实质性改变。
小米基于MiMo大模型推出的“miclaw”,不仅覆盖了PC与Mac端,还将其部署在其有屏音箱上。
音频版的“miclaw”首要解决的痛点便是提升产品体验的智能化程度。
小米音箱计划最新上线的miclaw已支持用户通过一句话下达复杂任务指令,具备语音唤醒与多轮对话的功能,并支持调用手机、PC执行。
这意味着,未来的小米音箱将不再只是机械的“一问一答”式指令接收器,有望结合上下文记忆,深度挖掘并理解用户的“言外之意”,进而在复杂、日常甚至口语化的语境中,执行更为复杂的任务。
除了小米,百度小度音箱、华为的小艺claw等均已在不同维度上接入了语音交互功能。
在不少行业人士看来,大厂相继在硬件中接入音频版claw底层的商业逻辑是这种不需要学习菜单,不需要注视屏幕的近乎“零门槛”交互,可以最大限度地降低AI的交互门槛,真正打入大众市场的基本盘。
“这样的话会使得整个入口更加自然,使用门槛降低,相当于家庭成员都可以体验,AI能够尽快融入到生活日常中。”北京某大厂的架构师向全天候科技解释。
事实上,为了支撑这种近乎“零门槛”的自然交互,小米本身也在积极加入对音频等多维度数据的底层训练。
早在小米2025年12月发表的一篇名为《Xiaomi MiMo-VL-Miloco Technical Report》的文章中就明确指出:未来,小米将进一步依托其硬件生态,将音频、毫米波信号等更多感知模态纳入统一的多模态学习框架。通过对多类异构感知输入进行联合推理,最终实现全方位的家居场景理解与精细化空间感知。
要实现从多模态感知到端侧部署的全面落地,离不开海量硬件设备所提供的数据土壤与应用环境,而这确实是小米的优势。
截至2025年末,小米AIoT平台已连接的IoT设备数(不包括智能手机、平板及笔记本电脑)达到10.79亿台,同比增长19.3%,同期米家APP、小爱同学的月活跃用户数分别1.13亿、1.6亿。
庞大的设备基数所带来的规模效应,使得小米更有利于实现对高价值“决策轨迹数据”的规模化抓取与持续沉淀。
在真实的物理世界中,Agent调用工具、执行设备控制的决策轨迹数据极为稀缺。
传统的软件系统或基础智能家居,往往只记录最终的“执行状态”,但真正能够驱动AI自主运行的是捕捉“为什么这么做”的决策链条。
高价值的决策轨迹数据不仅包含执行结果,更涵盖了触发该动作的完整上下文。
例如理想情况下,系统记录下“由于光线传感器识别到环境变暗,且门锁日志显示用户刚刚归家,因此决定开启客厅灯光并拉上窗帘”。
这种融合了多模态环境输入、触发规则和动作输出的完整信息,是指导Agent进行复杂决策的关键素材。
要获取这类数据,系统必须身处用户的“执行路径”之中,才能在决策发生的第一时间完成捕获。
小米庞大的AIoT设备网络,实质上构成了消费级物理世界中覆盖面极广的执行路径。通过海量设备的日常协同,这些单次的决策轨迹被持续沉淀,有望交织成一张动态的“上下文图谱”。
这能够客观呈现用户在不同时空下的作息规律、温度偏好及跨设备调用习惯。随着数据闭环的不断完善,系统便具备了更高的预判能力。
不过有效数据的实际产出率仍然取决于用户的使用情况,例如用户是否有足够的动力设置复杂自动化场景等。
新的入口战
围绕语音等交互入口,各类claw产品正加速落地。
百度claw、华为小艺claw等均在不同硬件上实现了语音交互能力的接入,并逐步从单轮指令响应,向多轮对话与任务执行能力演进。
阿里旗下的天猫精灵虽未冠以“claw”之名,但也在其全屋智能2.0方案中深度融合通义大模型能力,构建出“空间智能Agent”,进行智能化决策。
当语音入口逐渐被Agent化,缺席即意味着在下一代人机交互体系中失去关键位置。
这一轮集中布局背后是一次围绕“使用门槛与数据积累”的前置竞争。
作为最接近自然语言的交互方式,语音本质上承担着降低用户使用成本、提升渗透率的角色,让设备交互变得更加无缝。
只有当用户在日常场景中频繁使用Agent,各家厂商的模型才能持续获得真实的任务请求与执行反馈,从而不断优化决策与执行能力。
正因如此,当前阶段的核心在于是否能够让用户“先用起来”,通过高频使用形成数据闭环,再反向推动能力迭代。
在这一过程中,入口演化为连接用户行为与模型进化的关键基础设施,这已经在部分产品形态中出现苗头。
在一些头部厂商的实践中,语音不再只是触发单一设备或功能,而是开始承接跨设备的连续任务。
例如,用户用一句相对模糊的表达发起请求,系统会在后台拆解意图,并联动多个终端完成一整套动作。
在这一过程中,被调用的不再是某一个具体设备,而是一整条由系统组织起来的执行链路。
当交互从“点状指令”转向“任务链路”后,语音的角色不仅局限于降低使用门槛的入口,还成为实际承担任务调度的起点。
用户不再显式选择应用或设备,而是将需求交由系统统一分发。
这也使得入口竞争的重心发生偏移。厂商争夺的不仅限于用户是否开口使用语音,而是这些请求最终由谁来拆解、由谁来决定调用路径。
一旦这一环节被第三方承接,即便硬件仍在原厂商手中,服务分发与用户决策路径也可能逐步外移。
不过,在多方竞逐之中,不同厂商的底层禀赋差异开始放大。
和小米类似,华为的重要优势在于更加自研化的操作系统与硬件生态,早在2024年鸿蒙生态设备规模便已进入9亿级量级,小艺能力覆盖手机、平板、可穿戴及智能家居等多类终端,形成跨设备的统一交互网络。
这种“入口即数据、设备即执行”的竞争逻辑也在反向塑造互联网厂商的策略选择。
例如字节跳动在大模型与应用层具备优势,但在终端入口与系统级调度能力上相对薄弱。
由于在Agent逐步从“对话能力”走向“执行能力”的过程中,仅依赖App形态难以深度嵌入用户的日常决策路径,也难以获取高频、连续的任务反馈数据,字节跳动去年以来便频繁与手机厂商洽谈“豆包手机”的合作路径。
2026年,AI能力的比拼正在从“交互竞争”走向“执行竞争”。