四川在线记者 蒋京洲
3月7日,中国政府网官宣两位“新同事”——“AI数字人”上岗。“新同事”以政策讲解员身份出镜,解读政府工作报告的多个“首次提出”,引发大家关于AI技术应用的关注和讨论。
中国政府网AI数字人 图据中国政府网
中国政府网AI数字人 图据中国政府网
事实上,与此前引发关注的DeepSeek等大语言模型不同,AI数字人是多模态模型与大语言模型结合的产物。大语言模型是使用自然语言交互进行深度语义理解,输入和输出的信息都是以文本形式进行。多模态模型则扩大了交互模态,根据模型性能和用途的不同,可以实现文字-图片、文字-视频、音频-视频等多种形式的交互。二者结合则可形成“一句话生成一段视频”的AI数字人应用。
目前,AI数字人的底层逻辑主要基于两套操作机制。一种是由真人驱动的数字人,通过实时采集的视频信号进行动作捕捉,将真人的动作、表情投射到数字人形象上进行表演,例如我们熟悉的虚拟主播等就属于此类。另一种,则是通过预训练的模型,使用输入的文字、语音等内容对数字人进行驱动,生成相应的语音与动作实现与用户的互动。此次中国政府网的AI数字人正是基于此类技术实现。
从效果上来看,数字人的应用能够节省真人出镜所需的场景准备、妆造设计、台词背诵等环节,有助于提升工作效率,因而得到广泛应用。2023年9月,川观新闻首批生成的20名数字记者上线投用,入选2023内容科技应用典型案例。2024年2月,《杭州新闻联播》在春节期间,启用AI数字人主播播报整档节目,成为全国首个全数字人主持播报的“联播”类新闻节目。