川观智库研究员 徐也晴
数据作为数字经济时代的“新石油”,其战略地位与重要性日益凸显。日前,中国工程院院士邬贺铨公开演讲时提到,2025年将成为我国数据资源建设的元年。
据邬贺铨介绍,目前国内数据资源呈现三个特点。一是中文开源语料库不足,如果过度依赖国外语料库会有价值观对齐的风险。而中国工业门类全、规模大,工业数据全球最多,但由于企业间不共享,导致68%的工业数据未被利用;二是原生数据的获得成本高,用AI自身迭代衍生虽然可合成数据,但这种操作可能会导致模型崩溃,因此训练数据中需要有10-20%的原始数据;三是行业数据清洗标注需要较高专业知识,可利用AI来生成、标注和编目,但需严格管控质量。
过去一年,数据标注行业颇受重视。4月1日,全国数据工作会议提出“探索建设数据标注基地”;5月24日,国家数据局发布了承担数据标注基地建设任务的城市名单,其中包括四川省成都市;近日,国家发展改革委等六部门联合印发《关于促进数据产业高质量发展的指导意见》,提到要强化数据标注、数据合成等核心技术攻关。
除此之外,临近年底,国内多家智库机构也强调数据标注的重要性。比如,国内科技产业智库甲子光年提到,数据标注可能会成为建设高质量中文数据集的重要手段;中国信息通信研究院提到,当前,新一代数据标注成为高质量数据供给的关键。
具体而言,新一代数据标注具备高技术含量、高知识密度和高价值应用的“三高”特性。高技术含量指的是智能化标注、人机协同标注、合成数据技术等将大幅提高标注效率和准确率,从而降低成本;高知识密度指的是从业者将出现高学历背景和多学科融合的特点;高价值应用指的是数据标注整体趋向技术服务多元化、领域场景专业化、质量高标准化等属性。
2025年,数据标注行业会面临怎样的机遇?中国信息通信研究院认为,在技术层面,基于大模型的智能化标注落地使用,人机协同的轻量化标注技术突破,细分行业领域标注需求增多;在产业层面,行业高质量数据集建设元年带来海量标注需求,具身智能数据和逻辑推理数据成为行业增长点,新一代数据标注产业集群加速形成。