从洗碗工到“AI教母”,她又预言了下一个十年
来源:36kr 14 小时前

作为“AI教母”,李飞飞每次对AI的判断都会成为全球科技的重要风向标,2025年年底,李飞飞发出万字长文,引发的讨论又一次引爆了硅谷。

她笃定AI的下一个十年是“空间智能”——若AI无法理解物体的深度、距离、遮挡与重力,就永远无法真正“具身”。她表示,语言是用来描述世界的工具,但不是世界本身。

1月6日,李飞飞应邀站在CES 2026的演讲台上,她也再度强调了“大语言模型终究受制于语言本身”的局限性。

“一只苍蝇没有万亿级参数,却能在杂乱空间中极速避障、精准着陆。”关于空间智能,网络上流传着这样一句热梗。在李飞飞发布的万字长文末尾,便提到:“若没有空间智能,我们关于真正智能机器的梦想将永远不完整。这场探索,是我的北极星。”

这颗恒星对李飞飞来说,意义非凡。它是李飞飞十几岁时,在一次野外徒步中对自然世界的感悟。她在加州理工学院读博期间,受认知神经科学启发,开始研发“如何教计算机识别物体”。后来她一手缔造ImageNet数据集,推动计算机视觉领域实现跨越式发展,也是她从寒武纪大爆发与生物视觉起源中攫取到的灵感。

2025年末,李飞飞创立的World Labs发布首款商用“世界模型”Marble。该实验室于2024年年初成立,9月正式亮相,融资超过2.3亿美元,估值超过10亿美元。

如今,50岁的李飞飞已在人工智能领域内研究了二十余年,探索空间智能成了她最新的“北极星”。但回顾她的成长史,从计算机图像、ImageNet数据集到具身智能,可以梳理出李飞飞为何对空间智能如此笃定的脉络。

2024年4月,李飞飞首部自传《我看见的世界》在中国出版发行。这本书是她亲自参与创作、迄今为止最完整的个人思想与历程记录。该书详尽叙述了李飞飞青少年时期在美国做洗碗工的困顿艰辛,也描绘了她第一次走进科学殿堂的欣喜若狂。

更重要的是,李飞飞的职业生涯贯穿了AI从实验室走向产业爆发的全过程,因此这本书可以算得上是一部人工智能发展史。我们拆解了《我看见的世界》一书,全书共12个章节,读完这篇文章,站在李飞飞的视角,你将看到:

1.这位殿堂级女科学家的成长环境是怎么样的?支撑她在困顿中破局的是什么? 

2.李飞飞在计算机视觉科学内如何发现行业的盲点,又是如何解决的?

3.ImageNet是如何建立起来的?又是如何撬动人工智能的?

4.从学界到产业,李飞飞经历了什么,又是如何解决“水土不服”的?

5.对李飞飞来说,至关重要的空间智能“北极星”源自何处,又是如何演变的?

6.李飞飞为何将AI的下一个时代定义为“空间智能”,这个判断最早源于什么时候?

困顿的家境,建立最纯粹的信仰

李飞飞出生于北京,成长于成都,她自小热爱物理学科,课余时间几乎都在探索和学习相关知识,但这份热爱在16岁时被迫短暂中断。

1992年,李飞飞随着父母来到美国谋生。飞机落地时,母亲口袋里的20美元是全部的家产。那时,Facebook的人工智能首席科学家杨立昆在新泽西州霍姆德尔的研究生涯刚刚起步,“神经网络”算法的应用研究正裹于襁褓之中。但这些都与李飞飞无关,她和父母每天要解决的问题是与人交流和获取食物。

一家三口挤在一个狭小的一居室,李飞飞的卧室是厨房过道。父亲找了份修相机的工作,母亲是超市收银员,李飞飞每日放学后需去一家中餐馆打工。2美元的时薪,洗碗、拖地、擦玻璃、传菜等,都是她的工作内容。那时,李飞飞一天中说得最多的话是Sorry,白天为听不懂老师、同学们的英文而道歉,晚间因听不懂客人点餐而低头。

距离申请大学仅剩两年的时间,李飞飞不得不挤压睡觉时间来学习。在她的回忆里,那段日子她几乎每天只睡4个小时。最后,李飞飞以SAT1250、数学满分的成绩被普林斯顿大学物理学专业录取,并获得了全额奖学金。

《American dream come true!(“美国梦”成真了)》是录取结果出来时,李飞飞所在区的一家当地报纸的封面头条,一张短发的照片被排版在报道最显眼的位置。

普林斯顿的大学生活,李飞飞活得十分“割裂”:这里是她一直以来所追逐的“智力天堂”,她每天能汲取关于物理世界的真理,但也不得不时刻面临现实生活里岌岌可危的家庭财务状况,母亲罹患严重心脏病更是她多年来心头的沉重大石。

这种来自财务状况的困顿,一直延续到很多年之后。甚至当李飞飞成为斯坦福知名教授之后,她还不得不想办法解决母亲的高昂手术费用。

那时,很多人劝说李飞飞“清醒点”,甚至她自己都曾动摇,自己是否应该把学业作为获得经济来源的敲门砖。比如学有所成后,是否该选择医学、金融或工程等报酬丰厚的领域,以此来摆脱困难的生活。

但李飞飞的心里始终有个声音在唱反调,她不甘心失去这唯一一个能进入科学领域的机会。父母的开明给了她一个“强心丸”,父母都支持她进入热爱的物理学科。普林斯顿毕业后,她并未选择来自华尔街的众多橄榄枝,而是进入了另一个“智力天堂”——加州理工学院。

李飞飞的博士研究方向是视觉研究领域,简单来说就是让机器学会“看”东西。那时该领域的大多数学生会在神经科学、计算科学选择其一,而李飞飞则是同时研究两个领域,这是当时硕士项目的首个案例。

ImageNet:打开人工智能黄金时代

“我们决定做一件史无前例的事情,我们研究的(计算机视觉识别)对象是全世界的物体。”这句话在当时看来,还是天方夜谭。

2005年,李飞飞在伊利诺伊大学厄巴纳香槟分校电气与计算机工程系担任助理教授,后又来到普林斯顿大学计算机科学系任职助理教授。《我看见的世界》一书中,李飞飞曾先后称自己经历了“至暗”和“黑暗”,前者是刚到达美国的窘迫生活,后者便是2005~2009年期间,她将其称为“人工智能寒冬”。

彼时,人工智能遇冷,研究“计算机视觉识别”几乎没人看好。李飞飞每天在不停回答周遭人的劝诫:“飞飞,换个方向吧,这条路走不通的。”

当下,数据已经是各大模型公司疯抢的关键信息。但在千禧年前后,学术界与AI领域都在狂热地打磨算法,却唯独忽视了“数据”的价值。在李飞飞看来,大家对AI领域趋之若鹜,却从未有人真正研究“数据”。

21世纪初,李飞飞坚定认为,让AI产生质的飞跃关键就在于,能否建立起一个囊括“全世界所有物体”的庞大数据库。这与如今的境况何其相似,现在她笃定,让生成式AI产生质的飞跃关键在于:大语言模型能否突破模态的限制,真正识别物理世界。

当时主流的计算机视觉研究,大多依赖于精心设计的手工特征和有限的小规模数据集,机器能识别的物体种类不过寥寥数十种。李飞飞却想构建一个百万级、标注完备、覆盖整个世界物体的图像宇宙——这便是ImageNet的雏形。

在李飞飞的畅想中,ImageNet就是一个图像识别数据库,只要将它运用在计算机上,可以直接辨认出物品和人。但现实给她浇了一盆冷水,李飞飞找本科生来手动输入识别图片数据,甚至时薪开到了10美元。但按这个速度算下去,ImageNet建成需要90年。而后李飞飞又尝试以算法来进行数据处理,但更多问题开始显现:资金链断裂、模型陷入瓶颈等。

亚马逊的众包服务,最终成为项目能完成的关键支撑。这项服务通过在平台发布标注任务,以低成本召集全球网民参与协作——正是这一模式破解了海量图像标注的效率难题。“我看到网站的那一刻,我知道ImageNet成了。”

2009年,历时两年半,涵盖5247个类别、12个子树的320万张标记图片的论文亮相CVPR(国际计算机视觉与模式识别会议),当时团队在展会的一个小角落。随后,李飞飞与当时最权威的图像识别大赛PASCAL VOC合作,这次合作既是转折,也是起点。

2012年,亚历克斯·克里热夫斯基等人提出深度卷积神经网络模型AlexNet,在当年的ImageNet大规模视觉识别挑战赛(ILSVRC)中,以领先第二名41%的压倒性优势夺冠。AlexNet将Top-5错误率从上一年的26%大幅降至15%,这也让人们不得不相信,优质的AI必须经过ImageNet预训练。

作为ImageNet的创始人,李飞飞开放数据库,免费提供给全世界的科研团队用于计算机图片识别训练。这一刻也被许多行业人士称为AI发展史上的“奇点”之一。被誉为结束了人工智能寒冬,也拉开了人工智能黄金时代的序幕。

此后十年间,从科研到产业界,李飞飞在AI、具身智能上继续钻研。2013年,李飞飞正式出任斯坦福人工智能实验室(SAIL)主任;2015年,她与合作者联合创立了AI4ALL;2017年,她从斯坦福暂时离开,在Google Cloud担任AI/ML首席科学家兼副总裁,参与制定谷歌云在人工智能与机器学习上的战略方向。

空间智能:支撑人类认知的脚手架

“李飞飞是第一位真正理解大数据力量的计算机视觉研究人员,她的工作打开了深度学习的闸门,推动了人工智能技术的问世。”2024年诺贝尔物理学奖获得者的杰弗里·辛顿,对李飞飞的成就做了最好的总结。

2022年底,ChatGPT大语言模型燃爆AI圈,也让“语言即世界”成为“行业共识”。但2024年,48岁的李飞飞又踏上了寻找“北极星”的旅程。

李飞飞最擅长的,便是找到行业盲点。她认为,包括视觉模型、空间智能、机器人模型都会数字化,但把“数字”等同于“语言”,便是“偷换概念”。在她看来,信息不光是语言的,还有空间信息。

“算法语言表达的高级程度,已经逼近人类水平。”虽然《我看见的世界》一书成型于2023年,但当时她就表示:以ChatGPT等为代表的大语言模型能力已无需赘述,而机器人正在逐渐学会应对真实的环境。

笃定的视觉模型不仅可以通过照片进行训练,还可以在全三维世界中进行沉浸式训练。当世界模型形成后,人工智能能够像识别内容一样流畅地生成内容。简而言之,她要再做一个全新时代的“ImageNet”产品。

《我看见的世界》在中国出版的同时,李飞飞创立了她的最新项目——World Labs,开始研发空间智能。李飞飞认为,时间到了。

“生成三维空间”并非易事,“我自己试着用Blender、Unity,我头都大了。”李飞飞坦承,“奇点”还未到来,技术也尚未攻克。但ImageNet带给李飞飞的除了对行业的敏感嗅觉,还有坐冷板凳的“耐心”。她坦言,从技术上来看,空间智能还处于早期,但她也笃定未来一到两年内,空间智能会爆发。

“我现在可以肯定,等待探索的事物还有太多太多,一个人穷尽职业生涯,甚至一生,都无法抵达终点。”而在李飞飞看来,AGI更像是一个有很多锁的门,需要不同的钥匙打开,空间智能是其中一把。这个门并非“开与不开”,而是将会被一点点打开。

简体中文 English