数据劳工“撑起”万亿级具身智能赛道
来源:36kr 16 小时前

当我们为机器人每一个灵巧的动作而惊叹时,不应忘记那些在阴影中为其绘制行动地图的“影子”。这不是商业模式的拷问,更是一个关于技术伦理与社会的深刻命题:我们追求的智能未来,究竟应该由怎样的人文基石来支撑?我们正在见证林立的具身大厦,但要记得何人把它一手手搭。

数据成为具身智能进化最大卡点,成为困住其走向物理世界的“灵魂”时,明面上,产业内讨论的是真机数据与仿真、互联网等数据类型的博弈。其中真机数据由于质量更高且在精细化操作领域的更具效用,被普遍认为“海量真机数据集能左右具身智能发展速度”。

但几乎不会有人告诉你,机器人真机数据集的背后是怎样一份沉甸甸的付出。

这份付出是一个略显老套的商业故事,正如同骑手越来越快的车速为的是加速外卖平台的即时零售梦实现一样。数据采集员也在具身智能中扮演同样的角色,他们通过身穿操作设备,一遍又一遍重复同样的拿水杯动作,为得就是让具身智能拥有抓取&放置的能力。

但由于数据需求带来数采员的缺口巨大,这份工作常以“外包”的形式出现,在不稳定的工作中诞生出更稳定的具身智能产品。

有人说,这是时代赋予的“红利期”,日薪200元不用风吹日晒,在兼职工作中属于香饽饽,还有人说,这是和网约车司机、骑手齐肩的新工种,能作为长线发展。

亦有悲观者认为,这份工作有点悲剧色彩。“数据收集员的工作正是为Optimus最终取代人类劳动铺路。”Business Insider在报道特斯拉建立数据采集团队的文中这样评述。通过由数据采集员获取的数据,机器人会变得更聪明,以至于这次他们亲手锻造的,或许成为未来的竞争对手。

无论视角如何,短期来看这好像都是一份能挣到钱的新路子,至于未来如何发展或许谁也没拿到预言家的牌。在喧哗与躁动的行业中,他们像一群“淘金者”,只不过这次他们不再是向土地要黄金,而是向自己要数据。

数据劳工的正反面

几乎所有受访的数采从业者,都将这份工作定义为“枯燥的体力活”。

枯燥,源于工作的重复性:员工需身着数采外骨骼或遥操设备,重复数百次夹取、拿放、搬运等动作,如同教导婴儿学步般,引导机器人模仿人类行为。体力活,则体现在工作的低技术门槛,多数岗位明确偏好男性,甚至要求能抓取15公斤重物。

数据采集中心内,数采员们在特定场景中行走、抓取、避障,每一个动作都被精确记录,成为机器人的行为蓝本。或者,他们坐在电脑前,对海量视频逐帧标注“这是手”“这是门把手”“这是安全行为”。他们是机器人在数字世界中的“镜像”与“导师”。

Business Insider的采访对象直言,这份工作对身体的负担极大,“几乎等同于一整天都在做有氧运动”。

坦白说,这类工作与兼职群中常见的外卖众包、快递分拣、工厂普工,有着高度相似的用户画像,以男性为主、无技术门槛的劳动密集型岗位。

但招聘方却常常附加“偏好条件”:希望应聘者具备计算机、人工智能相关背景,或拥有数据采集经验。这份在社交媒体上被贴上“含金量低、需避坑”标签的工作,反而成为许多计算机、人工智能专业大专生的实习与就业选择。

这些以相关专业、大专学历为主的新生力量,大多将其视为“行业红利”。曾从事医疗机器人数采与标注的大专生小吕,数科专业本科刚毕业的小陈,都对这份工作给予了较高评价。小陈认为,满意的待遇、相对安全的工作环境、蓬勃发展的行业前景,再加上个人兴趣的驱动,让他对这份工作充满好感。但和大多数从业者一样,他也清楚这份工作的不稳定性,计划先积累经验作为跳板,在行业中探索更多可能性。

这种“鲤鱼跃龙门”的职业期待,与外包的AI数据标注、AI训练师渴望晋升为大厂的AI产品经理的职业规划如出一辙。“贴近风口赛道,从底层积累经验逐步晋升”“优秀者可转正交社保”,这也是HR在招聘中常用来吸引求职者的叙事逻辑。

但若将视野从这些“专业对口”的劳工群体,扩展到更广泛的从业者,便会发现他们身上诸多令人深思的“异状”。

正如光与影相伴,当机器人最终站在聚光灯下接受掌声时,这些教会它一切的数据劳工却成为不被看见的影子。

而更诡异的是,这种数据劳动正在“异化”。就像程序员们与其亲手打造的AI编程工具相爱相杀一样,劳动密集型岗位上的数据劳工正在教会其伟大的机器人如何从事基础性、枯燥的重复性劳动。

看不见的另一层是“无根”。

从互联网、移动计算,到大模型和如今的具身智能,技术风口一轮接一轮,数据劳工们也随着浪潮迁徙,难以扎根。技术迭代,数据劳动便会游移。

另一层面的“随波逐流”则是体现在他们的劳工关系上。他们的工作多通过层层外包获得,劳动关系脆弱。项目一旦终止,都可能导致整个团队瞬间解散,失业如影随形。

在这场具身大潮中,不说与动辄百万年薪的算法工程师相比,数据劳工薪资与招工群里的其他体力工种并无区别。在数据采集方面,以北上广深一线城市为例,普遍日薪160元-200元之间,时薪20出头。在数据标注环节,更是价低。这类工作就是针对客户视频里的目标检测识别,打标签,属于远程办公,全国可做。目前正在三四线城市正迅猛发展,摊薄用工成本。他们是这条高附加值产业链上最基础、也是待遇最微薄的一环。招聘的低门槛,意味着其可替代性之强,也注定了议价权之弱。

人工智能领域知名政经批判学者凯特·克劳福德在《技术之外:社会联结中的人工智能》一书中表示,“这些工人从事支持AI‘魔法’说法的重复性工作,但他们从未因为使这个系统正常运行而获得认可。尽管这项工作对AI系统的‘工作’至关重要,但通常薪酬很低”。

译文翻译有些拗口,换句话说当智能展现出震撼人心的魔力时,那些支撑其运作的幕后劳动者,却未得到应有的认可,至少在薪资回报上是如此。

数据劳工现状从何而来?

回到问题的开始,数据劳工的这些“异状”究竟从何衍生呢?AI的发展促进了具身智能的诞生,而具身智能也承袭了诸多AI的技术底层逻辑,其中之一是“大力出奇迹”的Scaling Law。具身智能的智能水平某种程度上与数据的质与量成正比,甚至业内一度认为具身智能要理解复杂的物理世界,或许要达到“互联网”数据量级。因此,只有在保证质上足够干净精确、足够丰富,才能从规模化定律中催生智能涌现。

于是,具身智能需要数据采集、标注等大量人力才能堆砌出。这些大量的人力成本,就成为初创企业的辎重了。而为了“轻装上阵”,在摩尔定律逐渐打破,模型迭代日新月异的节奏里,企业选择把这项基础工作外包给三方。

从资本的逻辑来看这一点无可厚非。具身智能公司的核心资本必须投入到算法研发和硬件制造等“硬核”环节。将数据工作外包,是降本增效的好办法。但需要强调的是,外包后,企业管理链条延长,企业规范(权力)的传导会递减、乏力。这当中极容易滋生乱象。拿标注质量来说,当具身智能企业下达一份数据采集或标注的操作手册供三方员工按部就班实现标准作业流程。这其中“具身企业—劳务公司—三方员工”之间存在“二次合格”。即原本“具身公司—全职员工”要求及格的数据,在上述链路后,变成三方员工“得过且过”地交付劳务公司数据,而劳务公司又“得过且过”地把数据交给具身智能公司,最终影响数据质量。(部分情况下如此)

回到数据劳工的薪资待遇问题。当工人在接受层层外包后,薪资普遍像洋葱一样,剥的越来越少。你可以看到网络上,围绕这项工作的外包方,工资各有差异,一手的三方可能日薪250元,二手的劳务公司则可能日薪200元,而更多层的劳务则可能变为150元。最终这些劳工被当作资源反复倒手。当然,数据劳工劳动价值的压低,还表现在外包项目方本身也可能“吃不饱”。具身研习社也采访到某数据采集项目负责人,他表示“目前与厂商合作都比较困难,部分厂商要求需要买他们的机器人才能分到业务。现在很多都是希望输入人过去,去客户那采集,用客户的场地。但是这种本质上已经变成了纯人力公司”。而当企业选择成为人力外包公司,就会发现企业在具身产业链已经走到很边缘的位置,自然这份蛋糕注定吃不到多少。

总之,低质量、低激励的数据工作甚至可能反噬技术本身,导致数据质量下降,这些乱象也共同揭示出产业初期的“野蛮生长”。

结语

当我们沉浸在具身智能描绘的未来蓝图中,不应忽略那些支撑技术迭代的“数据劳工”。他们的职业发展与产业演进本就是相互依存的整体,而非割裂的个体与背景。从劳工视角来看,像小陈一样试图“转正进管理”只是少数人才能实现的理想路径,更多人面临的是“技能无沉淀、就业无保障”的困境。真正的职业成长,应当围绕“经验转化”与“风险兜底”展开。底层采集员可凭借一线实操经验,转向数据质量把控,比如筛选有效动作数据、修正冗余标注,或是参与编写场景化采集手册,将“如何让机器人精准识别障碍物”“不同场景下的动作规范”等经验转化为行业标准,摆脱纯体力劳动的局限。

从产业方来看,数据劳工不会永远伴随着数采厂的建设而呈线性增长,未来AI自动标注、世界模型生成与仿真技术优化数据采集方案,可能会逐步“挤占”劳工的生存空间。

但需要明白的是,在“感知”层面(如识别物体)的自动化可能较快,但在需要“理解”物理世界复杂交互(如力度、触感、突发情况)的“认知”层面,高质量的人类演示数据大概率在较长一段时间内仍是不可替代的“教科书”。

当我们为机器人每一个灵巧的动作而惊叹时,不应忘记那些在阴影中为其绘制行动地图的“影子”。这不是商业模式的拷问,更是一个关于技术伦理与社会的深刻命题:我们追求的智能未来,究竟应该由怎样的人文基石来支撑?我们正在见证林立的具身大厦,但要记得何人把它一手手搭。

简体中文 English