在当今的AI世界里,对话框几乎成了默认入口。然而,一家名为Chance AI的初创公司却提出了一个颠覆性的观点:人类理解世界的起点并非语言,而是视觉。基于这一理念,他们打造了“Visual Agent”(视觉智能体),旨在让AI从被动应答者转变为能主动“看懂”并解释世界的伙伴。
从认知科学到AI创业:创始人的独特路径
Chance AI的灵魂人物曾熙,其背景横跨学术与产业。他在巴塞罗那大学取得认知科学与当代艺术博士学位,专注于研究人类如何通过视觉构建对世界的理解。此后,他先后在OPPO、一加等硬件巨头负责产品与设计,并在字节跳动Flow部门深度参与了豆包等AI产品的早期探索。
这段经历让他敏锐地察觉到一个行业痛点:尽管大语言模型在文本生成上表现出色,但在支持人类基于视觉进行现实判断方面,AI的能力依然捉襟见肘。2025年初,曾熙毅然离开字节,于同年9月正式推出了Chance AI。
“先看懂,再开口”:重新定义AI交互
Chance AI的核心交互逻辑极为简洁——以摄像头为入口,用户只需拍摄眼前之物,AI便会实时进行视觉推理和解释。这种“拍照即交互”的模式,迅速在年轻用户中催生了丰富的使用场景:从艺术展上解读晦涩的当代作品,到购物时分析穿搭风格;从识别稀有卡牌版本,到检测皮肤状态、翻译菜单、辨认植物……许多创意用法甚至超出了团队最初的设想。
今年3月,Chance AI作为官方AI合作伙伴亮相香港Art Central艺术博览会,这是AI首次被系统性地融入国际顶级艺术展的观展体验。观众只需将手机对准艺术品,AI便能像一位知识渊博的同伴,实时分享作品背后的故事与深意。
技术上,Chance AI的雄心也得到了验证。在其核心的视觉推理能力上,该产品在权威多模态评测基准MMMU-Pro中取得了86.07分的佳绩,位列世界第一,甚至超越了部分主流大模型及人类平均水平。
软硬一体的未来蓝图
尽管目前以软件应用形式存在,但曾熙的终极目标远不止于此。这位拥有深厚硬件背景的创始人坚信,未来的随身AI终端必然是一颗能够“包揽你所有视觉信息”的智能摄像头。Chance AI已推出的“Live模式”正是这一愿景的雏形,它能将知识检索、内容对比、上下文理解等多种能力整合成一个实时响应的智能体。
在商业模式上,团队采取了审慎而多元的策略。短期内,将推出高级功能订阅服务;中期,计划向硬件厂商授权其视觉智能体技术;长期来看,若能成功养成用户“看到什么都先拍一拍”的习惯,成为新一代交互入口,商业机会将水到渠成。
对于是否会亲自下场做硬件,曾熙的回答充满战略定力:“当供应链成熟时,我们一定会奋不顾身地杀进去。但我们的本质是视觉推理能力,而非硬件本身。”
如今,Chance AI在全球已积累了超过20万下载量,核心用户群是25岁以下的年轻人。2026年,团队将目光投向北美学生市场,希望通过深入社群,挖掘更多真实、鲜活的使用场景,继续推动这场从“问答”到“共见”的AI交互革命。
共同学习,写下你的评论
评论加载中...
作者其他优质文章