豆包手机:戴着镣铐跳舞

本文最后更新于：2025年12月7日晚上

最近有一台手机很火，叫豆包 AI 手机，与中兴合作推出，好像三万台很快就抢没了，小黄鱼上面还要加价买。系统应该是由原锤子团队完成的，系统文件里面还残存着 Smartisan 字样，很可惜锤子没有坚持到 AI 爆发前夕，2020 年底发布完坚果 R2 后就没有手机产品了，如果再坚持 2 年，等到 2023 年初，可能会有不一样的局面。

虽然锤子不在了，但是我现在的手机用的还是锤子那套拟物化图标。

豆包手机的特性

除了拥有普通智能手机的功能外，最大的特性是将豆包 AI 大模型能力系统级集成到手机，可以理解用户复杂指令，跨 APP 执行任务，成为手机的GUI Agent。比如你喊一声“豆包豆包，帮我看下哪家咖啡店的冰美式便宜”，它可以乖乖打开饿了么、京东、美团等 APP，一家家看，一页页翻，帮你完成选择，还不打扰你当前页面操作，美滋滋。

平常我们在手机用的 ChatGPT、元宝这种 app 都只能局限于 APP 内操作，无法跨应用执行任务，也许可以借助无障碍服务等权限实现一些有限操作，但肯定不如系统级的豆包 AI 助手的。为什么呢？

豆包直接进了系统层，有系统签名，可以获取android.permission.INJECT_EVENTS等系统级权限，做到向屏幕注入任意触摸事件；配合 AI 定制按键实现全局唤醒，用起来更加方便；可以和本地模型打配合，例如屏幕截图、识别等可以本地化运行，解决隐私问题；可以借助虚拟屏幕实现 APP 在后台运行，不打断用户当前的操作等等。这些能力是第三方 AI 助手无法做到的。

那么手机厂商自己的 AI 手机助手呢？他们也可以做到上面的能力，例如之前荣耀在发布会上面就用 YOYO 点过奶茶。但是手机厂商很多没有自己研发基座模型，很多用的都是 DeepSeek 等开源模型，可能灵活和定制程度不如字节跳动自己开发的基座模型豆包，比如对复杂任务的拆解、执行等等。另外，字节作为一个外来者，会有更大胆的创新，没有束缚，非常规思维，或许能做到更加好用的 AI 手机，比如这一次豆包手机的轰动和出圈效应，是之前其他手机 AI 助手没有过的，就好像当初苹果作为一个创新者、开拓者打败诺基亚一样。

踢到钢板

有用户发现用豆包操作微信时，出现了问题：微信弹窗警告说登录环境异常，不让用了。后来阿里系相关应用也出现了操控失败的问题。针对网上议论，豆包手机官方很快发了声明，说非常重视用户的隐私，不会泄露用户隐私，重要步骤都需要得到用户的授权等等。针对 AI 操控手机的能力，限制了一部分使用场景，不能刷分、刷激励，限制金融类应用的使用，限制部分游戏类场景等等。

这时候我们发现，豆包手机的舞台并不是一个空地，而是一个到处拉了警戒线的广场。最开始能力太广，跳得很嗨，导致踩线的概率越高，这不就踢到微信这块“钢板”了吗。一直以来，市面有不少群控手机等黑产业，直接模拟人的操作，发广告，刷流量等等。微信等一直以来都是严厉打击这种群控模拟点击等行为的，会动态检测设备环境，比如是否是真的用户在操作，从而做出是否该限制用户使用的决定。豆包这种绕过人直接按指令操控微信的情况，大概率是触发了微信的反作弊检测。

当然，从技术上看，作为一个系统级应用，完全有能力做到不让微信发现，可以“更黑一点”，比如更隐蔽地注入事件、更像人类地操作，比如直接参考 sendevent直接向设备节点注入事件，随机化模拟点击等等。但这不是一个简单的技术问题，需要平衡好平台、用户和法律的关系，做一个自由放飞风筝的同时，线也要被牢牢扯住，要学会带着镣铐跳舞。因为 AI 手机本身没有什么天然权利去操控别人的 App，只有用户授权 + 平台规则允许 + 法律不反对三件事都站得住脚的时候，它的行为才算安全。

对于用户来说，肯定希望在自己授权和保护隐私的情况下，尽可能完成多的任务。比如比价、解决老年人不会用手机的困境等等。另外，AI 操作过程需要透明化，高危权限必须用户主动确认，不能擅作主张，绕过用户确认，包括删除数据等等。前段时间还有爆出过谷歌的编程工具直接删了用户的 D 盘的，这是一个严重事故啊。

对于平台来说，他当然不希望你批量点击，自动化刷数据，AI 答题等等，但用户会说这是我的权利，是我发出的指令，怎么就不能做呢？另外这也是一个入口之争，用户打开 App，看到的是它的首页、活动、推荐、广告等等，如果成为一个 AI 的插件，他的收益肯定会受影响。所以怎么分清用户正常需求和非法请求，解决矛盾，需要各方共同制定规则，不能因噎废食，一刀切，或许未来各个 APP 都有统一的 MCP 协议，AI 助手可以按需调用，不需要模拟点击了。

对于法律来说，它需要关心厂商有没有尽到安全保护和风险提示义务，有没有可能成为违法行为的帮凶。比如怎么界定 AI 操控 APP 是否触发入侵计算机罪？怎么保护用户的数据？如果 AI 没说清楚就把跨 App 的内容上传云端分析，或者被黑产拿去远程控制老人手机转账等等，这是绝对不行的。

最后

所有新技术涌现都肯定会有一段野蛮生长阶段，规则和监管就会显得滞后，当年苹果手机迫于运营商压力在我们这里还卖过不能用 WiFi 的机型呢，即使它支持这个功能，但现在每一个智能手机都支持 WiFi 了。

豆包手机这一波也类似，像是提前把未来的一角撕开给大家看了看：

一边是人类的惰性与想象力：

“要是手机能自己刷就好了。”
一边是现实世界的边界与恐惧：

“我不想我的钱、隐私和账号被一坨我看不见的东西接管。”

所以这几天我们才会看到这些画面:

用户觉得“终于有点 AI 时代的感觉了”。
平台觉得“你这是往外挂的方向在滑”。
监管觉得“这玩意儿要是出事，后果很难收拾”。
厂商一边宣传未来，一边仓促地删功能、打补丁、发声明。

GUI Agent AI 助手不会停止发展，但一定是带着镣铐跳舞的，而这副镣铐怎么铸、谁来管、谁有权说“不”，大概率会是未来几年里，AI 手机、超级 App、监管与用户一起磨出来的东西，规则和法律会变得更加完善，我们也能用上更安全可控的 GUI Agent AI 助手。

随笔

#随笔

豆包手机:戴着镣铐跳舞

https://iwesley.top/article/29834ee6/

作者

Wesley

发布于

2025年12月7日

许可协议

脱糖魔法：为什么 java.time 在 Android 上还是会翻车？上一篇

愿者上钩：再安全的手机也可能抵不过人性的考验下一篇