
四川在线记者 唐泽文
AI圈又“炸锅”了。
谷歌发布了其最新、最先进的AI大模型Gemini3。
为什么这个大模型“炸锅”了?
先看分数。Gemini3Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。MathArena数学竞赛得分23.4%领跑,Live Code Bench Elo破2400,工具调用与终端操作第一,屏幕截图理解准确率72.7%达现有水平两倍。
看不懂吧?
换个“说人话”的方式:业界对其的评价是“断崖式”领先——原因也简单,它正在从一个“辅助工具”变为“合作伙伴”。
以前只能是“辅助工具”,是因为在大部分场景,大模型的理解和推理能力仍然有限:它可以帮你搜集一些资料,给出一些建议,但最终给出的方案大部分场景都只能作为参考。仍需要人在它所完成的基础之上不断完善,才能形成一个相对成熟的答案。换言之,大模型给出的结果,很多时候是不能直接使用的。
而Gemini3随着各项能力的大幅提升,在不少情况下给出的结果,可以直接使用了。
AI大模型发展有多快,业内人士心里其实无比清楚。但许多普通大众并没有太把它当回事,核心原因就在于它给出的结果还不能直接用,没有人做得好。毕竟,能不能直接使用,一直是普通人评价AI到底“行不行”的关键指标。
Gemini3之所以能“炸锅”,就是在这点上取得了明显进步。这是大模型领域“量变”所引起的“质变”。
这次的“质变”甚至有些让人倒吸凉气:加拿大劳瑞尔大学已有一项测试结果——疑似Gemini 3的模型,在识别18世纪手写会计账簿时,字符错误率仅0.56%,词错误率1.22%。相对应的,专业人类转录员处理同类文稿的错误率约4%。它甚至不仅能看懂字,还能根据上下文精准推理出一些含糊不清的数字的意思。
当下看,大模型的比拼,已经在应用侧进入白热化阶段。
在这场比拼中,谷歌的进步也是其自身独有优势的结果:不仅自主研发模型,还拥有全球性分发渠道,包括Android生态、搜索入口、YouTube流量,且同步叠加Google Cloud算力支持。
这也是当下国内大模型厂商拼命建设这个领域全生态的原因。
Gemini的本意是双子座。作为全球人工智能发展的另一极,我们也为对手的强大感到高兴。毕竟,更强劲的对手,才能成就更强大的我们。