豆包手机:戴着镣铐跳舞
本文最后更新于:2025年12月7日 晚上
最近有一台手机很火,叫豆包 AI 手机,与中兴合作推出,好像三万台很快就抢没了,小黄鱼上面还要加价买。系统应该是由原锤子团队完成的,系统文件里面还残存着 Smartisan 字样,很可惜锤子没有坚持到 AI 爆发前夕,2020 年底发布完坚果 R2 后就没有手机产品了,如果再坚持 2 年,等到 2023 年初,可能会有不一样的局面。
虽然锤子不在了,但是我现在的手机用的还是锤子那套拟物化图标。
豆包手机的特性
除了拥有普通智能手机的功能外,最大的特性是将豆包 AI 大模型能力系统级集成到手机,可以理解用户复杂指令,跨 APP 执行任务,成为手机的GUI Agent。比如你喊一声“豆包豆包,帮我看下哪家咖啡店的冰美式便宜”,它可以乖乖打开饿了么、京东、美团等 APP,一家家看,一页页翻,帮你完成选择,还不打扰你当前页面操作,美滋滋。
平常我们在手机用的 ChatGPT、元宝这种 app 都只能局限于 APP 内操作,无法跨应用执行任务,也许可以借助无障碍服务等权限实现一些有限操作,但肯定不如系统级的豆包 AI 助手的。为什么呢?
豆包直接进了系统层,有系统签名,可以获取android.permission.INJECT_EVENTS等系统级权限,做到向屏幕注入任意触摸事件;配合 AI 定制按键实现全局唤醒,用起来更加方便;可以和本地模型打配合,例如屏幕截图、识别等可以本地化运行,解决隐私问题;可以借助虚拟屏幕实现 APP 在后台运行,不打断用户当前的操作等等。这些能力是第三方 AI 助手无法做到的。
那么手机厂商自己的 AI 手机助手呢?他们也可以做到上面的能力,例如之前荣耀在发布会上面就用 YOYO 点过奶茶。但是手机厂商很多没有自己研发基座模型,很多用的都是 DeepSeek 等开源模型,可能灵活和定制程度不如字节跳动自己开发的基座模型豆包,比如对复杂任务的拆解、执行等等。另外,字节作为一个外来者,会有更大胆的创新,没有束缚,非常规思维,或许能做到更加好用的 AI 手机,比如这一次豆包手机的轰动和出圈效应,是之前其他手机 AI 助手没有过的,就好像当初苹果作为一个创新者、开拓者打败诺基亚一样。
踢到钢板
有用户发现用豆包操作微信时,出现了问题:微信弹窗警告说登录环境异常,不让用了。后来阿里系相关应用也出现了操控失败的问题。针对网上议论,豆包手机官方很快发了声明,说非常重视用户的隐私,不会泄露用户隐私,重要步骤都需要得到用户的授权等等。针对 AI 操控手机的能力,限制了一部分使用场景,不能刷分、刷激励,限制金融类应用的使用,限制部分游戏类场景等等。
这时候我们发现,豆包手机的舞台并不是一个空地,而是一个到处拉了警戒线的广场。最开始能力太广,跳得很嗨,导致踩线的概率越高,这不就踢到微信这块“钢板”了吗。一直以来,市面有不少群控手机等黑产业,直接模拟人的操作,发广告,刷流量等等。微信等一直以来都是严厉打击这种群控模拟点击等行为的,会动态检测设备环境,比如是否是真的用户在操作,从而做出是否该限制用户使用的决定。豆包这种绕过人直接按指令操控微信的情况,大概率是触发了微信的反作弊检测。
当然,从技术上看,作为一个系统级应用,完全有能力做到不让微信发现,可以“更黑一点”,比如更隐蔽地注入事件、更像人类地操作,比如直接参考 sendevent直接向设备节点注入事件,随机化模拟点击等等。但这不是一个简单的技术问题,需要平衡好平台、用户和法律的关系,做一个自由放飞风筝的同时,线也要被牢牢扯住,要学会带着镣铐跳舞。因为 AI 手机本身没有什么天然权利去操控别人的 App,只有用户授权 + 平台规则允许 + 法律不反对三件事都站得住脚的时候,它的行为才算安全。
对于用户来说,肯定希望在自己授权和保护隐私的情况下,尽可能完成多的任务。比如比价、解决老年人不会用手机的困境等等。另外,AI 操作过程需要透明化,高危权限必须用户主动确认,不能擅作主张,绕过用户确认,包括删除数据等等。前段时间还有爆出过谷歌的编程工具直接删了用户的 D 盘的,这是一个严重事故啊。
对于平台来说,他当然不希望你批量点击,自动化刷数据,AI 答题等等,但用户会说这是我的权利,是我发出的指令,怎么就不能做呢?另外这也是一个入口之争,用户打开 App,看到的是它的首页、活动、推荐、广告等等,如果成为一个 AI 的插件,他的收益肯定会受影响。所以怎么分清用户正常需求和非法请求,解决矛盾,需要各方共同制定规则,不能因噎废食,一刀切,或许未来各个 APP 都有统一的 MCP 协议,AI 助手可以按需调用,不需要模拟点击了。
对于法律来说,它需要关心厂商有没有尽到安全保护和风险提示义务,有没有可能成为违法行为的帮凶。比如怎么界定 AI 操控 APP 是否触发入侵计算机罪?怎么保护用户的数据? 如果 AI 没说清楚就把跨 App 的内容上传云端分析,或者被黑产拿去远程控制老人手机转账等等,这是绝对不行的。
最后
所有新技术涌现都肯定会有一段野蛮生长阶段,规则和监管就会显得滞后,当年苹果手机迫于运营商压力在我们这里还卖过不能用 WiFi 的机型呢,即使它支持这个功能,但现在每一个智能手机都支持 WiFi 了。
豆包手机这一波也类似,像是提前把未来的一角撕开给大家看了看:
一边是人类的惰性与想象力:
“要是手机能自己刷就好了。”
一边是现实世界的边界与恐惧:
“我不想我的钱、隐私和账号被一坨我看不见的东西接管。”
所以这几天我们才会看到这些画面:
- 用户觉得“终于有点 AI 时代的感觉了”。
- 平台觉得“你这是往外挂的方向在滑”。
- 监管觉得“这玩意儿要是出事,后果很难收拾”。
- 厂商一边宣传未来,一边仓促地删功能、打补丁、发声明。
GUI Agent AI 助手不会停止发展,但一定是带着镣铐跳舞的,而这副镣铐怎么铸、谁来管、谁有权说“不”,大概率会是未来几年里,AI 手机、超级 App、监管与用户一起磨出来的东西,规则和法律会变得更加完善,我们也能用上更安全可控的 GUI Agent AI 助手。