从输入框到视觉本能:ChanceAI如何撕开“大模型同质化”的技术裂缝
2019年的某个下午,曾熙站在卢浮宫的《蒙娜丽莎》前,满怀期待却败兴而归。那幅画比想象中要小,他看不懂这幅传世之作为何价值连城,转身便离开了。五年后,他创办的ChanceAI能够告诉用户:那块石头不是普通的混凝土巨石,而是洛杉矶LACMA的LevitatedMass,耗资1300万美元运输的公共艺术,背后是关于美国城市阶层结构的隐喻。
这个转变本身就是答案。
被忽视的第一性原理
大模型的军备竞赛已陷入同质化困局。每家公司都在升级算力、优化参数、抢占入口,但交互范式十年未变——“人提问,AI回答”。输入框成了所有产品的默认形态,用户必须把需求翻译成语言,再把语言交给模型处理。
曾熙在2023年提出了一个反直觉的问题:“为什么眼睛不长在屁股上?”
这个提问指向一个被忽视的事实:从进化角度看,人类大脑约70%的信息处理与视觉相关。在语言出现之前,人类依靠视觉识别环境、判断危险与机会。视觉是第一性原理,语言只是更晚出现的编码系统。
大多数AI产品选择了更简单的路径——在语言交互上堆叠功能。但ChanceAI选择了一条更难的路:把输入框从核心界面移除,让“看”成为默认动作,“问”变成可选动作。
技术架构的重构逻辑
实现这个交互范式需要重构底层技术架构。传统多模态模型擅长“这是一只猫”的识别,但无法回答“这只猫为什么出现在这个场景里”。
ChanceAI的技术团队构建了一套意义推理引擎。用户的拍照行为触发的不只是图像识别,而是主动调用知识图谱:物件的生产背景、文化语境、社会共识。一块石头调取的是公共艺术数据库,一栋建筑调取的是建筑师作品序列,一双球鞋调取的是它在重大历史事件中的出场记录。
这意味着模型的计算量呈指数级上升。但曾熙的计算逻辑不同:用户用摄像头主动获取信息的成本,远低于用户在输入框前犹豫不决的沉默成本。视觉交互的本质是降低认知摩擦,让AI适应人类本能,而非让人类适应AI的规则。
数据飞轮的冷启动策略
25万用户、每天2.8次的人均拍照频次——这组数据比任何融资估值都更能说明问题。
在完成从0到1的冷启动后,ChanceAI的数据飞轮开始自转。用户拍照产生数据,数据训练模型,模型提升体验,体验吸引更多用户。但这套飞轮的燃料不是钱,是精准的用户分层。
18-25岁的北美年轻人是第一批种子用户。他们不关心技术架构,只关心“拍一张穿搭,App能不能告诉我好不好看”。OOTD点评、看手相、肤质检测、毒舌点评——这些功能的设计逻辑高度一致:满足年轻用户在社交场景中的即时表达需求。
“所见即谈资”的社区逻辑随之成型。用户一键分享到ChanceAI社区,拍照行为从个人工具演变为社交货币。这种转化是自然的——用户拍的是自己想说的内容,App帮他们把内容讲得更专业、更有故事性。
视觉Agent的战略卡位
曾熙选择暂时不做AI硬件、不急于变现、不搞大规模宣传。这三件事构成了一个战略定力测试:在一个追求快速扩张的行业里,克制比激进更需要勇气。
他的判断是:视觉AI的入口战争还没开始。输入框代表目的性,视觉代表本能;输入框强调解决问题,视觉强调触发好奇。两者不是替代关系,而是代表两个不同的交互时代。
ChanceAI的赌注是:AI的下一次入口变化发生在视觉,而非语言。如果这个判断正确,它比任何先发优势都更有价值。
