《人工智能大模型体验报告2.0》发布,讯飞星火位于国产主流大模型测评榜首位

2023-08-14 16:32:07来源:四川在线编辑:曹湲

文/赵东

500道题目、对标接受过高等教育的人类水平、更强调对产业和生活的实际价值,严格按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计……8月12日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告2.0》(以下简称《报告》),讯飞星火以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度评分第一,《报告》认为讯飞星火“在工作提效方面优势明显”。


《报告》呈现,讯飞星火认知大模型具有7大核心能力(即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力),拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。

讯飞星火认知大模型从立项到发布,再到迭代升级,每个节点都紧锣密鼓:5月6日发布讯飞星火认知大模型及其在教育、办公、汽车、数字员工等领域的应用落地;6月9日突破开放式问答,并在数学能力和多轮对话能力上迭代升级;8月15日,讯飞星火将公布在代码能力上实现的重大突破,并在多模态交互能力上升级;10月24日将展示对标ChatGPT,实现的中文超越、英文相当的水平。

在智商评估方面,《报告》显示,人类在智商方面仍然具有明显优势。课题组分别从常识知识(20%)、逻辑能力(50%)和专业知识(30%)方面对大模型进行考量,结果显示,讯飞星火位列参与测试的主流大模型第一。

在工作效率提升方面,《报告》认为, AI对人类提供了有力的支持,然而,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然无法替代。课题组重点在工具提效(50%)和生成创新(50%)方面进行了考量,结果显示,讯飞星火以350分位列参与测试的主流大模型第一。

    编辑推荐