
川观智库研究员 饶雪琪
近日,赛迪顾问发布最新一期中国人工智能产业洞察研究,认为数据智能将成为促进大模型新一波爆发式增长的基石。
该研究指出,随着围绕大模型的商业竞争白热化,数据作为模型训练的根基,其供应紧张问题日益凸显,预计到2040年语言数据将面临枯竭,图像数据则将在2060年到达极限。这一严峻形势预示,若无新数据来源发现或数据利用效率未能取得革命性提升,AI大模型的前进脚步将于2040年后显著减缓。在此背景下,数据智能的兴起成为扭转局势的关键。
赛迪顾问的洞察研究称,数据智能的核心在于从海量数据中抽提有价值、可操作的信息,赋能决策制定与任务执行,为用户提供精准的智能辅助。据中国信通院云计算与大数据研究所发布的《数据智能白皮书(2024年)》(以下简称“白皮书”),数据智能综合了数据供给、多模态数据存储与治理、数据智能平台、智能化数据安全技术等一系列新兴技术。这些技术从规模性、多样性及数据质量上全方位增强大模型的训练效能与精确度。
全球范围内已有不少头部公司在进行数据智能的运用,值得相关领域的企业关注与借鉴。例如数据供给方面,微软、OpenAI、Cohere已经开始使用合成数据来训练AI模型。合成数据和数据标注目前是数据智能领域两大关键供给技术。前述头部公司使用的合成数据技术,是指通过专用数学模型或算法进行数据生成的过程,可有效解决数据规模和质量不足等问题。白皮书认为,未来数据标注将向自动化、智能化演进,人工主要进行校正和细化的工作。而合成数据应用价值将更加显著。
在多模态数据存储与治理技术方面,英伟达、微软、谷歌和OpenAI等厂商已开始制定相关质量检测指标并构建技术实践,实现治理环节前置。白皮书认为,依托各类技术工具实现数据质量治理环节前置是一个重要趋势。当前数据治理流程通常是在数据应用过程中发现问题再追本溯源,这会成为模型训练效率提升和数据融合水平增强的掣肘。因此数据质量治理环节亟需前置,在数据收集阶段同步并行。
数据智能平台方面,Databricks、Snowflake、阿里云、华为云等国内外大数据厂商均推出具备数据存储、计算、开发能力的Data+AI解决方案。它们一方面将人工智能技术运用于把复杂的数据分析过程自动化,快速识别数据中的模式和趋势;另一方面,推动模型开发范式以数据为中心的模式转变,为上次模型提供更强的算力及更高质量的数据。
数据流通技术方面,蚂蚁、腾讯、华为等企业均有开发隐私计算、数据空间等数据流通解决方案,助力数据可控安全地流通利用。白皮书指出,部分场景中单一企业的数据规模和多样性不足,需要融合利用外部数据以增强模型能力,因此,数据流通技术已成为实现数据智能的核心技术之一。数据流通过程需要关注数据的可控与安全,可用性和稳定性。
据中国信通院统计,截至2024年4月,全球共有人工智能企业30000余家,我国人工智能企业数量超过4500家。其中超半数人工智能企业从事涉及数据的相关业务,另外,国内还有近2000家数据企业面向人工智能领域提供服务。未来,随着大模型技术在各行业领域的落地应用,数据智能企业数量将持续增长,支撑产业规模持续扩大。