百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Gemini-2.5-Pro 大战 Deepseek-V3-0324

zhezhongyun 2025-05-22 14:52 16 浏览


大数据文摘受权转载自夕小瑶科技说
这周谷歌 Gemini 2.5 Pro Deepseek V3-0324 相继发布,成为了这两天讨论最多的两个模型。
但是,这俩模型发布的风格却迥然不同。
Gemini 2.5 Pro ,以一种“屠榜式摧枯拉朽之势”亮相。谷歌高调宣布这是其“迄今最智能”的模型,伴随一系列耀眼的基准测试成绩,横扫数学、编码、多模态推理等多个领域。
Deepseek V3-0324,则采用了低调务实的“悄然上线”风格,默默出现在 HuggingFace 上,README 空空如也,只有 641GB 的模型文件。但是“润物细无声”的发布依旧并未掩盖光芒。
不少人对 Gemini 2.5 Pro 的评价集中在“多模态能力”和“超长上下文窗口”,Gemini 2.5 Pro 原生支持文本、图像、音频、视频、代码的协同处理,不仅能万字长文直出,复杂代码一遍过,而且能“看懂”视频,“听懂”音频,100 万 token 的上下文容量(约 75 万字)让它能轻松处理超长文档。
Deepseek V3 虽不像 Gemini 高调,但实用性也让它成为开发者心头好!拥有超强编码能力,新版模型在 LiveCodeBench 测试中超越 Claude 3.7 Sonnet,尤其在前端开发(HTML/CSS/JS)任务中表现突出。
两个模型虽都有各自的“杀手锏”,但是,光说不练假把式,是骡子是马拉出来遛遛才知道!按照我们夕小瑶“不服跑个分,不行测到服”的老规矩,肯定要亲自上手“盘盘”。
编码能力是大模型的硬通货,先测几道编程题。

Round 1:跑酷游戏

提示词:
Make me a captivating endless runner game. Key instructions on the screen. p5js scene, no HTML. I like pixelated dinosaurs and interesting backgrounds.
中文提示词:
为我制作一个引人入胜的无限跑酷游戏。屏幕上显示关键操作说明。使用 p5js 场景,无需 HTML。我喜欢像素化的恐龙和有趣的背景。
先看 DeepSeek V3-0324:

再看 Gemini 2.5 Pro:

DeepSeek-V3-0324 几乎完美交卷,提示、积分系统、障碍物一应俱全,碰撞逻辑和处理也做得滴水不漏,功能齐全到让人挑不出大毛病。唯一的瑕疵是那只恐龙,造型有点抽象,像随便捏出来的。
而 Gemini 2.5 Pro 表现有点拉胯。虽然颜色清新,恐龙形状也算还原,可惜连个障碍物都没加,弹跳还高得离谱,完全没游戏性可言,是个半成品。
这俩都是一次生成的结果,用各自母语提问。Gemini 2.5 Pro 的表现尤其意外,毕竟这是官方例子所用的提示词,本以为会惊艳,结果却让人失望。
DeepSeek V3- 0324 明显更胜一筹。

Round 2: 小球弹跳

这个测试项目已经不是什么新鲜项目了,我的预期是两个模型都能一次无伤通关。
提示词如下:
Create an effect using p5.js (no HTML needed) where 10 colorful balls bounce inside a rotating hexagon, taking into account gravity, elasticity, friction, and collisions.
使用 p5.js(无需 HTML)创建 10 个彩色球在旋转六边形内弹跳的效果,考虑重力,弹性,摩擦和碰撞。
先看 Gemini 2.5 Pro:

这是 DeepSeek-V3-0324:

Gemini 2.5 Pro 表现亮眼——颜色鲜艳、碰撞到位、摩擦顺滑,需求全搞定。
DeepSeek-V3-0324 直接上演“开局即 GG”的戏码,多边形连最基本地碰撞都没有实现,翻车翻得措手不及。
本局 Gemini 2.5 Pro 赢。

Round 3: 飞行模拟游戏

提示词如下:
In pure three.js, without downloading any assets or textures, create a flight simulator game where i can fly an airplane. Make sure it runs in the browser
先看 DeepSeek V3-0324

Gemini 2.5 Pro:

这轮较量,打得胶着,胜负难分。
两者的操控都没啥问题,开起来都还算顺手,起码不会让人摔键盘。
DeepSeek-V3-0324 的画面丰富,但是完全看不出飞机的影子,像个抽象派艺术品,整体效果不像飞行而像潜水。。
Gemini 2.5 Pro 这边飞机的造型能认出来,但是地形设计略显粗糙了。
这场比拼算 Gemini 险胜。

Round 4: 生成 Mandelbrot set 集

提示词如下:
p5js to explore a Mandelbrot set.
用 p5js 生成 Mandelbrot set.
DeepSeek V3-0324 的效果——

Gemini 2.5 Pro:

这轮比拼的结果还真有点意思,DeepSeek-V3-0324 和 Gemini 2.5 Pro 都交出了可交互的 Mandelbrot 集,表面上看旗鼓相当,但细节里藏着胜负。
DeepSeek-V3-0324 这次有点费劲,试了好多次,还换了好几轮提示词,折腾半天总算搞定,虽然结果能用,但过程磕磕绊绊,效率不太行。
反过来,Gemini 2.5 Pro 就轻松多了,一次提示直接命中,干净利落搞定,毫不拖泥带水。光凭这点效率差距,这局 Gemini 2.5 Pro 稳稳拿下胜利!
虽然 DeepSeek-V3-0324 在传统对话模型中,编程能力数一数二,但面对推理类模型,似乎还是在范式上有些劣势。

Round 5: 中文长文本输出能力

提示词如下:
以马斯克和山姆奥特曼为主人公,写一篇有关他们爱恨情仇的科技商战小说。要求:10000 字, 一次性输出完整内容。
Gemini 2.5 Pro 输出:

DeepSeek V3-0324 输出——

小说内容的优劣我就不做评判了,毕竟天马行空的想象力可以不受拘束地随意编织故事。
Gemini Pro 2.5 在严格遵循指令方面表现得相当出色,能够按照要求,稳定输出 1 万字的长篇内容。
DeepSeek V3-0324 试了好几次,总是在 6K、7K 字附近徘徊,篇幅上无法遵循指令。
本局长文写作测试,Gemini Pro 2.5 完胜!

Round 6: 文本总结能力

上传一篇 PDF 论文和里面的一张图片,我们上一篇推文里讲过的。
提示词:文章中,失败总体分为几大类, 具体的错误有多少种,它们分别是什么?图一中的成功率,失败率各是多少?
Gemini 2.5 Pro 的回答——
DeepSeek V3-0324 的回答——
Gemini 2.5 Pro 对于文本归纳和图表的识别都对了。DeepSeek V3-0324 文本归纳没问题,但图是完全没看明白。
果然,Gemini 2.5 Pro 的多模态强不是盖的,DeepSeek 在多模态上得加油啊。
Round 7: 智力推理题
提示词:
一楼到十楼的每层电梯门口都放着一颗钻石,钻石大小不一。你乘坐电梯从一楼到十楼,每层楼电梯门都会打开一次,只能拿一次钻石。问怎么才能拿到最大的一颗?
这是一个典型的“最优停止问题”(Optimal Stopping Problem),类似于“秘书问题”或“相亲问题”。在这类问题中,我们需要在有限的选择中,找到一个停止规则,以最大化选择最优选项的概率。
稍微有一定难度,直接先上结论:
  1. 前 3 层不拿:即在一楼、二楼、三楼时,只观察钻石的大小,记录下这三层中最大的钻石大小,但不拿取。
  2. 从第四层开始:在四楼到十楼,一旦遇到比前三层中最大的钻石还要大的钻石,就立即拿取。
  3. 如果在第四层到第十层都没有遇到比前三层最大的还要大的钻石,那么必须在第十层拿取(但此时无法拿到最大的钻石)。
这种策略能够使你拿到最大钻石的概率最大,约为 39.87%。
先看 Gemini 2.5 Pro 的回答:
再看 DeepSeek V3-0324:
这两个模型都答对了,但风格真是天差地别!
Gemini 2.5 Pro 懒得啰嗦,直接甩结论,像个酷酷的学霸:“答案就是这样,爱信不信!”
DeepSeek V3-0324 则是完全相反,简直是耐心过头的学神,恨不得手把手教你,公式推导一步不落,每层概率算得清清楚楚,生怕你脑子转不过弯,活脱脱一个“教学狂魔”!

Round 8: 海报生成

生成一张适合小红书平台的“金句海报”,内容为“Attention is All You Need”。用 html/css 设计。
Gemini 2.5 Pro 生成的海报:
DeepSeek V3-0324 生成的海报:
Gemini 2.5 Pro 就扔了个“Attention is All You Need”,干巴巴的。
DeepSeek V3-0324 还贴心地加上了副标题和标签,妥妥的小红书友好型选手,但是也暴露了缺点,没考虑这句话的出处和语境,理解成了另一层意思。

总结



Gemini 2.5 Pro 无疑是一位能力极其均衡的“六边形战士”。它的超长上下文处理能力和强大的多模态理解在实测中得到了充分验证。如果你需要处理海量信息、混合媒体内容,或者追求全面的 AI 能力,G2.5 Pro 无疑是最好的选择。虽然 DS V3 代码能力强,但实测中 G2.5 Pro 编程实力更强劲,实打实的全能王。


但是 Gemini 2.5 Pro 作为推理模型,而 Deepseek V3-0324 作为非推理模型,严格来说,两者定位不同。毕竟 Gemini 2.5 Pro 是谷歌砸出来的最强一代模型。Deepseek 的优势在于效率和开源属性上。


选择谁,关键看任务需求和时间检验。


GPU算力按需租用

A100/H100 GPU算力按需租用,
秒级计费,平均节省开支30%以上!

扫码了解详情


相关推荐

怎样设置EditText内部文字被锁定不可删除和修改

在做项目的时候,我曾经遇到过这样的要求,就是跟百度贴吧客户端上的一样,在回复帖子的时候,在EditText中显示回复人的名字,而且这个名字不可以修改和删除,说白了就是不可操作,只能在后面输入内容。在E...

iOS的布局体系-流式布局MyFlowLayout

iOS布局体系的概览在我的CSDN博客中的几篇文章分别介绍MyLayout布局体系中的视图从一个方向依次排列的线性布局(MyLinearLayout)、视图层叠且停靠于父布局视图某个位置的框架布局(M...

浏览器滚动条hover时变粗、改变颜色

今天应UED的要求对项目的滚动条进行美化,原生的滚动条虽然很实用,但确实不美观。用了一些css美化后::-webkit-scrollbar{height:9px;width:9...

QML控件类型:ComboBox、Control(qml buttongroup)

Control一、描述Control是所有控件通用功能的抽象基类型。它从窗口系统接收输入事件,并在屏幕上绘制自身。二、控件布局控件的implicitWidth和implicitHeight通...

学习CSS布局:简单表格布局代码示例

性能优化-学习CSS布局:简单表格布局代码示例CSS是现代Web设计和开发的必备技能之一。而表格布局是Web页面中常用的布局之一,用于展示数据和信息。在这篇文章中,我们将介绍如何使用CSS创建一个简单...

UE5之UMG基础第1篇:统一网格面板(ue5 新功能)

目标:记录和学习UE5的UMG方法制作UI,使用UniformGridPanel制作效果如下:步骤1.增加前言:UniformGridPanel统一网格面板,就是所有子元素大小和间隔等统一,这种效果...

JS的 DOM 尺寸与位置属性(js设置dom属性)

#头条深一度-深度阅读计划#在JavaScript开发中,操作DOM元素的尺寸和位置是常见的任务,尤其是在实现动画、布局调整或响应式设计时。本文将全面解析JavaScript中与DOM...

SpriteJS:图形库造轮子的那些事儿

从2017年到2020年,我花了大约4年的时间,从零到一,实现了一个可切换WebGL和Canvas2D渲染的,跨平台支持浏览器、SSR、小程序,基于DOM结构和支持响应式的,高...

理解CSS中的百分比单位:相对尺寸的核心规则

在CSS中,百分比(`%`)是一种灵活且强大的相对单位,但其具体行为常让开发者感到困惑。本文将深入解析百分比单位的计算规则,帮助你彻底掌握其背后的逻辑。一、百分比的核心:参考系(包含块)百分比的值始...

36个工作中常用的JavaScript函数片段「值得收藏」

作者:Eno_Yao转发链接:https://segmentfault.com/a/1190000022623676前言如果文章和笔记能带您一丝帮助或者启发,请不要吝啬你的赞和收藏,你的肯定是我前进的...

如何使用css完成视差滚动效果?(css 视距)

视差滚动(ParallaxScrolling)是指多层背景以不同的速度移动,形成立体的运动效果,带来非常出色的视觉体验我们可以把网页解刨成:背景层、内容层、悬浮层使用css形式实现视觉差滚动效果的方...

vant-List 列表(vant select)

引入importVuefrom'vue';import{List}from'vant';Vue.use(List);基础用法List组件通过lo...

Vue3问题:如何使用WangEditor富文本?能自定义才是真的会用!

笔者|大澈大家好,我是大澈!今天的问题,来自于上周末问题留言的朋友嘻嘻哈哈。欢迎大家在周末的问题留言推文中,积极进行问题留言,把这周工作日遇到的问题,分享给大家瞧瞧,或者直接进问答群,一起交流唠...

微信小程序开发极简入门(二):样式,页面,数据

前文:微信小程序开发极简入门(一)样式wxss:/**放在页面的wxss**/.scrollarea{flex:1;overflow-y:hidden;}.idx_view{...

AI+Code驱动的M站首页重构实践:从技术债务到智能化开发

本文分享了阿里巴巴找品M站首页重构项目中AI+Code提效的实践经验。面对M站技术栈陈旧、开发效率低下的挑战,我们通过楼层动态化架构重构和AI智能脚手架,实现了70%首页场景的标准化覆盖+30%的...