四川在线记者 段玉清 成都观察 王翱 邹嘉语
人工智能火了。但要让其更聪明,就要采集更多数据,由数据标注员给数据“划重点”。这样,AI才会“听”四川方言、“懂”交通规则,还会唱歌谱曲……在成都新津经济开发区,就有这么一群人工智能的“老师”。
近日,位于成都新津经济开发区的成都市国家数据标注基地牧山园区开园。为什么要发展数据标注产业?数据标注员如何给人工智能当“老师”?4月14日,记者前往园区探访。
从成都地铁10号线新津站出站,成都市国家数据标注基地牧山园区就展现在眼前,共5栋写字楼。
新津区数据局相关科室负责人许成睿介绍,园区规划面积达28万平方米,目前已完成7万平方米的建设,吸引不少数据标注企业入驻。
走进园区4号楼7楼的路米科技(成都)有限公司,这里的办公区与普通办公区并没什么两样——不少数据标注员正对着电脑屏幕忙碌。
“可以形象地把他们称为AI的‘老师’,负责给数据打标签。” 路米科技(成都)有限公司法定代表人党雄雄介绍。
在一名工作人员电脑旁,记者看到,屏幕上显示着一张街道实景照片——一位行人在路旁站立,旁边还有消防栓等。屏幕右侧的对话框出现一系列选项:有标志牌的路障、三角警示牌、站立的行人、消防栓等。工作人员依次点击“站立的行人”和“消防栓”等选项。
“最近,我们做的项目主要是教会人工智能识别路障并‘学习’交通规则等。”党雄雄说,屏幕中的选项均为工作人员根据项目需求提前录入到系统中的。之后,数据标注员会在系统中分析大量街景及道路交通标线照片,并将照片中出现的元素再依次标注出来。
党雄雄还以语音识别进行举例,“数据标注员不光要标注字词,还要教会人工智能‘察言观色’。”党雄雄说,在对话数据情感标注中,每句文本后会有“中性”“喜悦”“惊奇”等选项,数据标注员会根据情况选择合适的选项提交,“‘投喂’数据越多,训练出来的算法就越准确,越聪明。”
成都市国家数据标注基地牧山园区里,数据标注员正在进行数据标注。四川在线记者 段玉清 摄
人工智能又如何识别方言的?
记者来到楼上的成都向己科技有限公司。几年前,该公司已与相关语音转换商合作进行四川方言的数据标注工作。公司联合创始人夏诗洋回忆,素材提供者均来自四川不同地域,会讲流利的四川话,搜集内容也多为日常聊天。“录音时,一旁数据标注员同步在电脑上对素材的音字、韵律等进行标注。最后共搜集了超5000小时、共10万余条的四川语言数据集。”
许成睿介绍,除与附近的成都职业技术学院等院校合作培养数据标注员外,未来园区企业还将与成都艺术职业大学合作,教人工智能唱歌、谱曲。
去年5月,成都被确定为国家数据标注基地建设试点城市。按成都市工作部署,新津被纳入“人工智能牵引区+数据标注聚集区”布局。10月,在北京举行的首届“数据标注产业大会暨供需对接会”上,成都达成8项合作,其中新津拿下7项,包括与中国电信达成的高质量数据集智能标注基地项目,与金榜生涯教育科技、路米科技、微壹数据科技等5家企业达成的标注业务合作项目,以及与绎信优才达成的数据标注培训业务合作项目。