百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Gemini-2.5-Pro 大战 Deepseek-V3-0324

zhezhongyun 2025-05-22 14:52 7 浏览


大数据文摘受权转载自夕小瑶科技说
这周谷歌 Gemini 2.5 Pro Deepseek V3-0324 相继发布,成为了这两天讨论最多的两个模型。
但是,这俩模型发布的风格却迥然不同。
Gemini 2.5 Pro ,以一种“屠榜式摧枯拉朽之势”亮相。谷歌高调宣布这是其“迄今最智能”的模型,伴随一系列耀眼的基准测试成绩,横扫数学、编码、多模态推理等多个领域。
Deepseek V3-0324,则采用了低调务实的“悄然上线”风格,默默出现在 HuggingFace 上,README 空空如也,只有 641GB 的模型文件。但是“润物细无声”的发布依旧并未掩盖光芒。
不少人对 Gemini 2.5 Pro 的评价集中在“多模态能力”和“超长上下文窗口”,Gemini 2.5 Pro 原生支持文本、图像、音频、视频、代码的协同处理,不仅能万字长文直出,复杂代码一遍过,而且能“看懂”视频,“听懂”音频,100 万 token 的上下文容量(约 75 万字)让它能轻松处理超长文档。
Deepseek V3 虽不像 Gemini 高调,但实用性也让它成为开发者心头好!拥有超强编码能力,新版模型在 LiveCodeBench 测试中超越 Claude 3.7 Sonnet,尤其在前端开发(HTML/CSS/JS)任务中表现突出。
两个模型虽都有各自的“杀手锏”,但是,光说不练假把式,是骡子是马拉出来遛遛才知道!按照我们夕小瑶“不服跑个分,不行测到服”的老规矩,肯定要亲自上手“盘盘”。
编码能力是大模型的硬通货,先测几道编程题。

Round 1:跑酷游戏

提示词:
Make me a captivating endless runner game. Key instructions on the screen. p5js scene, no HTML. I like pixelated dinosaurs and interesting backgrounds.
中文提示词:
为我制作一个引人入胜的无限跑酷游戏。屏幕上显示关键操作说明。使用 p5js 场景,无需 HTML。我喜欢像素化的恐龙和有趣的背景。
先看 DeepSeek V3-0324:

再看 Gemini 2.5 Pro:

DeepSeek-V3-0324 几乎完美交卷,提示、积分系统、障碍物一应俱全,碰撞逻辑和处理也做得滴水不漏,功能齐全到让人挑不出大毛病。唯一的瑕疵是那只恐龙,造型有点抽象,像随便捏出来的。
而 Gemini 2.5 Pro 表现有点拉胯。虽然颜色清新,恐龙形状也算还原,可惜连个障碍物都没加,弹跳还高得离谱,完全没游戏性可言,是个半成品。
这俩都是一次生成的结果,用各自母语提问。Gemini 2.5 Pro 的表现尤其意外,毕竟这是官方例子所用的提示词,本以为会惊艳,结果却让人失望。
DeepSeek V3- 0324 明显更胜一筹。

Round 2: 小球弹跳

这个测试项目已经不是什么新鲜项目了,我的预期是两个模型都能一次无伤通关。
提示词如下:
Create an effect using p5.js (no HTML needed) where 10 colorful balls bounce inside a rotating hexagon, taking into account gravity, elasticity, friction, and collisions.
使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。
先看 Gemini 2.5 Pro:

这是 DeepSeek-V3-0324:

Gemini 2.5 Pro 表现亮眼——颜色鲜艳、碰撞到位、摩擦顺滑,需求全搞定。
DeepSeek-V3-0324 直接上演“开局即 GG”的戏码,多边形连最基本地碰撞都没有实现,翻车翻得措手不及。
本局 Gemini 2.5 Pro 赢。

Round 3: 飞行模拟游戏

提示词如下:
In pure three.js, without downloading any assets or textures, create a flight simulator game where i can fly an airplane. Make sure it runs in the browser
先看 DeepSeek V3-0324

Gemini 2.5 Pro:

这轮较量,打得胶着,胜负难分。
两者的操控都没啥问题,开起来都还算顺手,起码不会让人摔键盘。
DeepSeek-V3-0324 的画面丰富,但是完全看不出飞机的影子,像个抽象派艺术品,整体效果不像飞行而像潜水。。
Gemini 2.5 Pro 这边飞机的造型能认出来,但是地形设计略显粗糙了。
这场比拼算 Gemini 险胜。

Round 4: 生成 Mandelbrot set 集

提示词如下:
p5js to explore a Mandelbrot set.
用 p5js 生成 Mandelbrot set.
DeepSeek V3-0324 的效果——

Gemini 2.5 Pro:

这轮比拼的结果还真有点意思,DeepSeek-V3-0324 和 Gemini 2.5 Pro 都交出了可交互的 Mandelbrot 集,表面上看旗鼓相当,但细节里藏着胜负。
DeepSeek-V3-0324 这次有点费劲,试了好多次,还换了好几轮提示词,折腾半天总算搞定,虽然结果能用,但过程磕磕绊绊,效率不太行。
反过来,Gemini 2.5 Pro 就轻松多了,一次提示直接命中,干净利落搞定,毫不拖泥带水。光凭这点效率差距,这局 Gemini 2.5 Pro 稳稳拿下胜利!
虽然 DeepSeek-V3-0324 在传统对话模型中,编程能力数一数二,但面对推理类模型,似乎还是在范式上有些劣势。

Round 5: 中文长文本输出能力

提示词如下:
以马斯克和山姆奥特曼为主人公,写一篇有关他们爱恨情仇的科技商战小说。要求:10000 字, 一次性输出完整内容。
Gemini 2.5 Pro 输出:

DeepSeek V3-0324 输出——

小说内容的优劣我就不做评判了,毕竟天马行空的想象力可以不受拘束地随意编织故事。
Gemini Pro 2.5 在严格遵循指令方面表现得相当出色,能够按照要求,稳定输出 1 万字的长篇内容。
DeepSeek V3-0324 试了好几次,总是在 6K、7K 字附近徘徊,篇幅上无法遵循指令。
本局长文写作测试,Gemini Pro 2.5 完胜!

Round 6: 文本总结能力

上传一篇 PDF 论文和里面的一张图片,我们上一篇推文里讲过的。
提示词:文章中,失败总体分为几大类, 具体的错误有多少种,它们分别是什么?图一中的成功率,失败率各是多少?
Gemini 2.5 Pro 的回答——
DeepSeek V3-0324 的回答——
Gemini 2.5 Pro 对于文本归纳和图表的识别都对了。DeepSeek V3-0324 文本归纳没问题,但图是完全没看明白。
果然,Gemini 2.5 Pro 的多模态强不是盖的,DeepSeek 在多模态上得加油啊。
Round 7: 智力推理题
提示词:
一楼到十楼的每层电梯门口都放着一颗钻石,钻石大小不一。你乘坐电梯从一楼到十楼,每层楼电梯门都会打开一次,只能拿一次钻石。问怎么才能拿到最大的一颗?
这是一个典型的“最优停止问题”(Optimal Stopping Problem),类似于“秘书问题”或“相亲问题”。在这类问题中,我们需要在有限的选择中,找到一个停止规则,以最大化选择最优选项的概率。
稍微有一定难度,直接先上结论:
  1. 前 3 层不拿:即在一楼、二楼、三楼时,只观察钻石的大小,记录下这三层中最大的钻石大小,但不拿取。
  2. 从第四层开始:在四楼到十楼,一旦遇到比前三层中最大的钻石还要大的钻石,就立即拿取。
  3. 如果在第四层到第十层都没有遇到比前三层最大的还要大的钻石,那么必须在第十层拿取(但此时无法拿到最大的钻石)。
这种策略能够使你拿到最大钻石的概率最大,约为 39.87%。
先看 Gemini 2.5 Pro 的回答:
再看 DeepSeek V3-0324:
这两个模型都答对了,但风格真是天差地别!
Gemini 2.5 Pro 懒得啰嗦,直接甩结论,像个酷酷的学霸:“答案就是这样,爱信不信!”
DeepSeek V3-0324 则是完全相反,简直是耐心过头的学神,恨不得手把手教你,公式推导一步不落,每层概率算得清清楚楚,生怕你脑子转不过弯,活脱脱一个“教学狂魔”!

Round 8: 海报生成

生成一张适合小红书平台的“金句海报”,内容为“Attention is All You Need”。用 html/css 设计。
Gemini 2.5 Pro 生成的海报:
DeepSeek V3-0324 生成的海报:
Gemini 2.5 Pro 就扔了个“Attention is All You Need”,干巴巴的。
DeepSeek V3-0324 还贴心地加上了副标题和标签,妥妥的小红书友好型选手,但是也暴露了缺点,没考虑这句话的出处和语境,理解成了另一层意思。

总结



Gemini 2.5 Pro 无疑是一位能力极其均衡的“六边形战士”。它的超长上下文处理能力和强大的多模态理解在实测中得到了充分验证。如果你需要处理海量信息、混合媒体内容,或者追求全面的 AI 能力,G2.5 Pro 无疑是最好的选择。虽然 DS V3 代码能力强,但实测中 G2.5 Pro 编程实力更强劲,实打实的全能王。


但是 Gemini 2.5 Pro 作为推理模型,而 Deepseek V3-0324 作为非推理模型,严格来说,两者定位不同。毕竟 Gemini 2.5 Pro 是谷歌砸出来的最强一代模型。Deepseek 的优势在于效率和开源属性上。


选择谁,关键看任务需求和时间检验。


GPU算力按需租用

A100/H100 GPU算力按需租用,
秒级计费,平均节省开支30%以上!

扫码了解详情


相关推荐

办公小技巧:杜绝意外 让字体永不丢失

当精心编辑的文档,在其它电脑上打开时,最常见的问题就是页数增加了,表格被撑破了,有些严重的甚至会出现乱码……为什么会这样呢?究其根源都是因为缺少相应的字体。本文介绍各类文档中(包括Word文档、PPT...

网站速度优化:从10秒到2秒的极致性能提升方案

核心内容:性能诊断工具:PageSpeedInsights与Lighthouse的评分差异解读。WebPageTest多地区、多设备性能对比。前端优化:CSS/JS压缩与合并的自动化方案(如Webp...

如何在WordPress中删除谷歌字体(2种简单方法)

许多WordPress主题都会用Google字体,然而,Google字体并不存储在网站本地,它是一个第三方资源,这会影响网站的加载速度,让网站变慢,尤其当你的网站面向的是国内用户时,更需要禁用Goog...

2019年免费可商用字体大全(附打包下载)

私信“字体”可免费获得。附送一个几十G的,有商业授权要求的字体包!不说那么复杂了,简单讲,可能你下载的大多数字体都是收费的。比如方正、文鼎、汉仪等的90%以上需要商业授权,甚至个人授权。这儿的授权,指...

开源免费、美观实用的后台管理系统模版,简单轻量、开箱即用!

项目介绍ArtDesignPro是一款开源免费(基于MITlicense开源协议)、美观实用的后台管理系统模版,专注于用户体验和快速开发的开源后台管理解决方案。基于ElementPlus设计...

【推荐】一款开源免费、美观实用的后台管理系统模版

如果您对源码&技术感兴趣,请点赞+收藏+转发+关注,大家的支持是我分享最大的动力!!!项目介绍ArtDesignPro是一款开源免费(基于MITlicense开源协议)、美观实用的后台管理系统模...

想要字体图标设计师却给了SVG?没关系,自己转

本文为Varlet组件库源码主题阅读系列第三篇,读完本篇,你可以了解到如何将svg图标转换成字体图标文件,以及如何设计一个简洁的Vue图标组件。Varlet提供了一些常用的图标,图标都来自Mater...

零基础教你学前端——66、CSS谷歌字体和Icon图标

我们学习CSS谷歌字体和CSSIcon图标。我们在应用font-family属性声明样式字体时,除了使用HTML中的标准字体外,还可以使用谷歌字体。谷歌字体是免费使用的,并且有1000多种字体...

必须掌握的前端开发基础知识,什么是字体图标?

必须掌握的前端开发基础知识,什么是字体图标?显示隐藏元素display显示隐藏none隐藏block显示隐藏后不再占有原来的位置visibility隐藏元素后,继续占有原来的位置visible元...

让你的网站速度提升10倍!(四):压缩~~~

在前面的内容中讲了如何降低页面大小(给页面瘦身),重点讲的是如何优化图片,而没有讲文本内容如何优化,这是因为与其辛苦的优化文本还不如使用我们的秘密武器:Gzip压缩!如果你还不清楚Gzip是什么,看这...

MFC转QT - Qt界面开发 - 常用控件

基础控件(QPushButton,QLabel,QLineEdit等)按钮控件族Qt提供了丰富的按钮控件,比MFC的按钮控件更加细分和功能丰富。QPushButton(标准按钮)//创建按钮...

使用CSS实现苹果官网文字渐入效果

效果分析文字是从左到有慢慢呈现出来,不是整体消失和出现,那么肯定不能使用透明度。我们可以想到渐变文字,然后通过改变背景的位置来控制文字的显示与隐藏。渐变文字渐变文字该如何实现呢?这是实现这个效果的关键...

HarmonyOS NEXT - ArkUI: Text组件

Text组件用于在界面上展示一段文本信息,可以包含子组件Span。文本样式包含文本元素的组件,例如Text、Span、Button、TextInput等,都可以使用文本样式。文本样式的属性如下表:.f...

计算机网络的 166 个核心概念,你知道吗?

上回我整理了一下计算机网络中所有的关键概念,很多小伙伴觉得很有帮助,但是有一个需要优化的点就是这些概念不知道出自哪里,所以理解起来像是在云里穿梭,一会儿在聊应用层的概念,一会儿又跑到网络层协议了。针对...

软网推荐:请个多功能纯文本管理助手

纯文本不单是指常用的语言文字,还包括各种类型的程序代码、编码等。作为常用的纯文本处理工具,“记事本”显得力不从心。我们可用一款免费软件AlternateTextbrowser,随心所欲地管理各种类型...