百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大家来吐槽:安兔兔真的靠谱吗?

zhezhongyun 2025-02-13 15:12 27 浏览

就算你不知道兔子是什么东西,至少你也应该听过“不服跑个分”这句话。作为跑分党中最流行的工具之一,兔子评测即将推出新版,最大的改变是修改了评分标准,使之“更准确地反映用户体验”。用跑分软件来反映用户体验是应该的,针对不断发展的硬件修改评分标准也是正常的,但是具体到了兔子……事情可就说来话长了。今天就让我们来好好聊一聊兔子吧。

靠谱的跑分软件

自古以来,跑分软件常有,而靠谱的跑分软件不常有。当然要评价一个跑分软件是否靠谱一直以来都很难,你有你的侧重,我有我的理念,但是有两点是必须做到的,那就是说什么就测什么,测什么就是什么。前半句的意思是你要为你的测试目的选择直接且合适的测试项目,后半句则表示,要用合适的测试方法让你得到的结果就是你想要测试的东西。不要说山寨分析师废话,这当然都是很浅显的道理,但是千万不要以为这两点很容易做到!要你去测量一个活人的某个器官有多重容易吗?测试往往都是单项的,但是任何单项的测试都必须运行在系统这个整体里,怎样找到一个方法,从整体中把某个单项割裂出来,不被其他因素影响,这是一门很高深的学问。做不做得到这点,直接决定了跑分软件是否靠谱。

这么看的话,兔子靠谱吗?不好说。很久以前兔子跑分的靠谱问题就被吐槽过,其中很多互相独立的项目之间存在着极强的关联性,例如内存性能和整数性能几乎是线性相关,与内存子系统的硬件配置关系的关系却没这么强。这暗示着兔子的内存性能的测试严重受处理器系统的影响,结果不一定是真的内存性能——这当然也不一定是兔子跑分的错,但是排除干扰也是测试软件的必备技能与技术核心所在,否则谁都可以写测试软件了不是(虽然现在的确是谁都在写)。

现在兔子跑分还有这类问题吗?说不定还有。

如果去看看 4.0 版本引入的多任务测试,就会发现在测试运行过程中处理器经常只有一个核心满载,其余核心要么负载较低,要么甚至直接关闭。这对于一个多任务测试而言是一个很不寻常的现象,不仅不寻常,更加违反了常理。反观 3DMark 的物理测试,所有处理器都会长时间保持 100% 占用率,一直到测试结束。根据说什么就测什么原则,多任务测试自然应该是用满所有处理器的,兔子的多任务测试明显不如 3DMark 来的更加多任务。

这当然不是唯一的问题,再观察一下图形测试,就会发现测试的 CPU 占用率也显得不正常的高,经常会有 1~2 个甚至更多的核心负载达到最大频率下的 50% 左右。继续对比一下 3DMark,就会发现 3DMark 不论执行多么复杂的 3D 测试,处理器占用都非常低,几乎不会超过两位数,而且频率也只比待机高一点。这意味着,兔子的 3D 测试消耗了较多的 CPU 资源,最终成绩不仅会受到 GPU 的影响,也会受到 CPU 的影响,看看,说好的测什么就是什么呢?

其他项目山寨分析师没仔细研究,不过至少可以肯定,兔子之所以可以成为最流行的测试软件,是因为项目够多、测试系统更完善,更重要的是因为分数比较更直观,满足了用户和媒体之间以简单快捷的方式互相攀比的需求,并不是因为测试本身的技术含量与靠谱程度,也无怪乎有些人叫它娱乐兔。

我要更加代表用户体验

对于普通人而言,跑个分是因为想知道机器的使用体验,这是跑分的目的,也是兔子的宣传口号之一。此次兔子修改评分标准,也是打着这样一个旗号,新标准能更好的反映用户体验,而不是冷冰冰的数字。为此,兔子做了这样一些改动:增加了单线程性能测试、提升了 3D 测试的复杂程度、降低了 RAM 和 I/O 等测试的权重比例等。这些修改都是为了更好的代表用户体验吗?我们继续来聊一聊。

首先是增加单线程性能。增加这个当然是对的,毕竟在手机上单线程性能显然比多线程性能更重要。但这更贴近使用体验吗?还真就不一定,至于为什么兔子一直到 5.0 版本才开始提出这个项目,则更是一个很微妙的决定,这点非常值得深入八卦一下。

一直以来,处理器的总整数和总浮点性能在兔子里的比重都很大,这个自几年前手机刚开始普及多核时就已经是这样了。但是随着核战争的白热化,有很多厂家也自然而然的推出了一些比较奇葩的产品,例如 MTK 刚刚发布的八核 Cortex A53。这些处理器依靠着小而多的核心设计,在兔子跑分中屡屡突破,最新的 MT6795 甚至已经接近 50000 分大关。这个分数很明显不是用户体验,因此兔子此时引入单线程测试,似乎是合理的。

但问题来了,如果这真是兔子的目的,那么它从一开始就应该引入这个测试,因为这种 " 弱而多 " 的产品并不是今天才出现,早在之前的八核 Cortex A7、再之前的双四核、甚至更早之前的高通 Scorpion,都是这类 " 弱而多 " 的设计。如果这样的设计得到的分数不能代表用户体验,那么兔子早在两年前就应该做出这样的改变。但实际上,兔子从多核时代一开始,就彻底而全面的拥抱了多核总性能,一直对弱而多不闻不问,即便是去年 3.0 到 4.0 的升级,双四核甚至八核 Cortex A7 的出现都没有让兔子做出这样的改变,这说明问题也许并不在 " 弱而多 " 跑高分代不代表用户体验,而在于是谁在这样做。

另一方面,虽然主流的声音一直是多核无用,但是随着 Android的发展,多核,甚至是弱多核已经成为了不可否认的事实,在这样的事实状态下,软件开发策略不可能不做出对应的调整,程序员不可能在一个满是弱多核的世界里强行去编写需要强劲单线程才能运行的程序。可以说,这已经成为了了趋势,在未来也很难看到逆转的可能,兔子在此时高调引入单线程测试,趋势上有些说不过去。当然,站在山寨分析师的立场上,同样条件下,强劲的单线程当然是更好的,只是兔子在此时引入单线程测试,目的也许并不单纯。

第二个大改变是 3D 测试。兔子表示,现有的 3D 测试压力过小,已经不足以体现顶级硬件之间的差距,因此在新版测试中加大了 3D 测试的复杂度和压力,让顶级显卡之间得分的差异得到了更为明显的放大。这在技术上是对的,实际上却是错的。

为什么这么说?原因很简单,目前顶级GPU的最大功耗都已经超过了实际使用中能接受的极限,此时决定使用体验的并不是最大性能,而是在由发热、续航这样的因素决定的极限功耗下的性能。由于不论是 Adreno、PowerVR、Mali 还是 GeForce,自去年一来各自的性能提升都远超极限功耗之外,实际运行中就是谁快谁降频,越快越降频,因此如果真正的从实际体验角度来说,各个产品的 3D 体验实际上是趋同的,感官差异正在变得越来越小而不是越来越大。这点相信大家也都有体会,即便不去考虑实际上绝大多数人会玩的游戏其实根本不需要多少 3D 性能,高端机跑得动而中端机跑不动的游戏也不多;即便有,高端机也没法一直以那个速度跑下去,一圈流比比皆是。此时,兔子加大 3D 测试的强度、拉大 3D 测试的差异,从技术角度上说没问题,但从体验角度说则是完完全全的背道而驰——事实上越来越接近的感受,跑分差距却在变得越来越大,这不是打脸嘛。

聊到这里,山寨分析师一直在说具体的东西,一直在说用户体验。什么是用户体验?用户是体验不到整数性能的,日常使用中的体验更多是程序加载速度、网页渲染速度、触摸延迟、程序切换速度这些。但是兔子测的是什么呢?整数运算、浮点运算、2D 绘图、3D 绘图这些。即便是多任务和虚拟机,也只是 API 测试而不是应用测试,这些都是底层性能而不是使用体验,虽然的确决定了使用体验,但是太过间接,中间有无数个环节都可以影响这两者之间的相关性。但是兔子却说自己跑分代表用户体验,这无疑是非常明显的一个问题,明显到兔子自己也不可能不知道。要测试真正的用户体验很难吗?难,但是这不会超出兔子的技术能力之外,就好像要解决黄牛问题难吗?难,但是对于正规公司而言也不是问题一样。

有一千种方法可以测试真正的用户体验,兔子却不测,这就好比有一千种方法可以解决黄牛问题,却不动手,这并不是能力问题,也不是态度问题,而是利益问题。这说明,让兔子不去测用户体验的,和让公司放任黄牛猖獗的,是同一个原因。

为谁代言

很明显,这次兔子修改得分标准并不是一次简单的升级,也不是简单的因为要 " 更好的反映使用体验 " ——即便现行体系有问题,新的体系也并没有解决问题,甚至放大了问题,那么为什么要在这个时候做这样的修改?理由自然有不少,你当然也可以说,我就是想改了,那又怎样?但商业公司不会做无缘无故的事情,最可能的理由是,现行体系不利于自己的商业利益,而需要用新的体系来取代。

谁是兔子的商业利益?看看兔子属于谁吧,Cber 们都知道。那现行体系为什么会影响商业利益?现在的产品格局并不存在这样的问题,改不改分都无所谓,但也许未来的某个产品在现行体系下的表现不好,所以才需要在这个时间节点发布新版本?下半年是厂商新品发布密集期,也会有很多新的平台走向市场:高通 805、810,MTK 的八核 A53、三星的 64bitExynos、nVIDIA的 Tegra K1 64bit 版。如果看看这些平台,我们就能发现,兔子这次发布新的评分标准,似乎完全是在针对其中的某一个做定点 " 优化 ",没错,那就是 Tegra K1 64bit 版。

和其他所有产品不同,Tegra K164bit 版的设计思路和苹果的 A 系列很像,放弃了大量弱核心的设计思路,转而实现了两个巨大而强劲的 64bit 单核心——代号丹佛。同时,nVIDIA 为 Tegra K1 Denver 配备了迄今为止最强的 Kepler GPU,其性能远超目前所有的竞争对手。看到这里,相信大家都明白了,谁在兔子的新标准中受益最大?自然是 Tegra K1 Denver:多线程总性能的落后被强劲的单线程所弥补,新增的单线程项目完全针对这点;3D 测试采用 PC 级的引擎,加大测试压力,提高分数差异,这也完全是迎合了 Kepler 的口味。为什么兔子要在此时修改一个对 Tegra K1 Denver 如此有利的测试标准?这极为明显的暗示了 Tegra K1 Denver 和兔子的利益紧密契合,必须要修改测试标准,好让 Tegra K1 Denver 的表现足够好,也就是说,在下半年或许会有一台手机,搭载 Tegra K1 Denver 处理器,同时和兔子有明确的利益关系。这台手机是什么?说不定短短几天后就将揭晓,咱们拭目以待。

光这么说感受还不够明显,我们可以模拟一下 TegraK1 Denver 在两个标准下的得分,直观地看一下这个优化到底有多强大。参考一下 iPhone 5s 的跑分,在现行版本下 iPhone 5S 的得分大约在 30000 分左右,并不算高。其中整数性能 1900 分左右,浮点性能 1550 分左右,RAM 运算 600 分,RAM 速度 2200 分,3D 性能 11000 分左右。Tegra K1 Denver 的频率远高于 A7 的 1.3GHz,就当两倍吧,因此 CPU 得分也翻倍,总分 +3500,RAM 性能也按翻倍处理,+2800。Tegra K1 Denver Kepler 的性能十分强大,相信在 1080p 下可以跑满 60FPS,但是因为 iPhone 5S 也跑到了 60FPS,垂直同步无法突破,得分无法增长。再考虑一下其他的杂项提升,Tegra K1 Denver 在现有的兔子测试标准下的得分可能也就是 40000 左右。要知道,Tegra4 的得分是 36000,高通 800AB 的得分是 37000,三星 Exynos 5422 的得分大约是 38000,华为麒麟 920 已经突破了 40000 分,MTK 甚至跑出了 47000 的恐怖数字,即将问世的 805、810、Exynos 64bit、MTK 的高频版,显然都将轻松突破 40000 甚至 50000 分大关,这样一来,新一代跑分天王居然连排行榜前十甚至前二十都进不了,被甩开 20000 分,这让人脸往哪儿搁啊。

那么在新的评分体系下呢?由于增加了单线程性能,因此 Tegra K1 Denver 还能再得到一份 CPU 成绩,算 +3500,外加 3D 测试压力的增大,预期至少可以多得到 5000 分,甚至可以多拿到 10000 分,这样一来,不论其他的产品在新版中能获得多大的提升,Tegra K1 Denver 的总分几乎可以确保逼近甚至超越 50000,成为顶级跑分俱乐部的一员。

如果真是这样,什么叫产业配合?这就叫。在自己新品发布之前,针对性的修改跑分软件的测试标准,提升自己新产品的表现,从而把跑分天王这样的称号牢牢攥在手里。从商业上说,这样的安排是完美的,效果无疑也会相当理想,正所谓三流企业靠作弊,二流企业堆配置,一流企业玩标准,让基准测试为我的硬件优化,这必然是胜利的绝对保障。至于输家,自然是跑分软件自己了。

消费者和厂商之间的信息不对称是不可能解决的问题,媒体、测试软件在这两者之中扮演的是桥梁的角色,帮助消费者获得更多信息,缓解信息不对称。这就要求媒体和测试软件不说做到客观,至少也需要做到公平,即便连公平都做不到,也要维持最基本的底线,那就是独立,而独立恰恰是媒体和测试软件最大的困境。传统媒体自然不必说,最近几年,自媒体热炒,各种独立评测者如雨后春笋,评测视频多如牛毛。他们说的对不对,好不好,这些其实都是次要的,最重要的问题是,这些自媒体、测试软件如何养活自己?做视频要钱,开发要钱,宣传也要钱,在中国你不可能指望你的用户和观众为你付费,那就只能靠投资,问题是拿谁的钱?拿了投资,就必须为投资人的利益说话,这是商业的根本,但是当一个手机测试软件团队拿了手机厂商当投资,就很难不成为投资人的营销和斗争工具,一个本该为用户利益代言的群体,却成为了厂家的傀儡,这无疑是悲哀的。评测软件如兔子,自媒体如 Zealer,都很难洗脱这样的嫌疑,任何一点倾向性,都很难避免被放在聚光灯下,研究你的动机,而一旦被怀疑,甚至被打上标签,也就意味着你自媒体和测试软件生涯的结束。

为消费者代言,你将成为太阳,燃烧自己照亮他人;然而人不可能成为太阳,因此这就成了自媒体和评测软件的死结。

到底怎么跑分

聊到这里跑题有些远了,还是回到兔子身上,如果兔子真的要测试用户体验,那么应该测试什么项目呢?山寨分析师认为首当其冲应该引入编译性能测试,因为随着 Android L 的发布,ART 取代 Dalvik 已经是必然的趋势,因此未来所有 Android 手机在安装程序时都会经历一段编译过程,这个过程的速度会直接影响用户体验,完全有必要纳入测试范围内。其次是多程序切换速度。Android 作为多任务系统,在多个 App 中切换是常有的事情,切换的速度直接影响用户体验,兔子完全可以虚拟几个 App,然后在其中互相切换,测量切换时间。接下来是温度限定下的性能测试,给定一段时间,执行性能测试,当温度超过舒适温度,例如 45 度时测试暂停,跌落后继续,最后评价这段时间内执行的测试总量。以此类推,还可以引入定续航性能测试,进行测试的同时计算对应的电量消耗速度,通过控制性能,令电量消耗速度趋近于一个固定时间的续航,例如对 CPU 测试而言设定为保证续航 5 小时,对 GPU 测试而言设定为 3 小时这样。除此以外,诸如 UI 帧速与帧速稳定性、游戏与数据加载速度、浏览器渲染与 HTML5 性能、3G/4G/WiFi 网络性能等也应当纳入到测试范围内。这些可以与理论测试结合起来,共同为用户展示一个全面,关键是,确实能反映使用体验的结果,这才是一个测试软件应当做到的东西。

兔子有实力实现这些吗?当然有,问题只在兔子背后的利益是否允许兔子这么测。如果未来兔子继续维持这样的升级和开发思路,那兔子跑分变成娱乐兔也就是不可避免的了。

相关推荐

JavaScript中常用数据类型,你知道几个?

本文首发自「慕课网」,想了解更多IT干货内容,程序员圈内热闻,欢迎关注!作者|慕课网精英讲师Lison这篇文章我们了解一下JavaScript中现有的八个数据类型,当然这并不是JavaScr...

踩坑:前端的z-index 之bug一二(zh1es前端)

IE6下浮动元素bug给IE6下的一个div设置元素样式,无论z-index设置多高都不起作用。这种情况发生的条件有三个:1.父标签position属性为relative;2.问题标签无posi...

两栏布局、左边定宽200px、右边自适应如何实现?

一、两栏布局(左定宽,右自动)1.float+margin即固定宽度元素设置float属性为left,自适应元素设置margin属性,margin-left应>=定宽元素宽度。举例:HTM...

前端代码需要这样优化才是一个标准的网站

  网站由前端和后端组成,前端呈现给用户。本文将告诉您前端页面代码的优化,当然仍然是基于seo优化的。  就前端而言,如果做伪静态处理,基本上是普通的html代码,正常情况下,这些页面内容是通过页面模...

网页设计如何自学(初学网页设计)

1在Dreamweaver中搭建不同的页面,需要掌握HTML的语句了,通过调整各项数值就可以制作出排版漂亮的页面,跟着就可以学习一些可视化设计软件。下面介绍网页设计如何自学,希望可以帮助到各位。Dre...

1、数值类型(数值类型有)

1.1数据类型概览MySQL的数据类型可划分为三大类别:数值类型:旨在存储数字(涵盖整型、浮点型、DECIMAL等)。字符串类型:主要用于存储文本(诸如CHAR、VARCHAR之类)。日期/...

网页设计的布局属性(网页设计的布局属性是什么)

布局属性是网站设计中必不可少的一个重要的环节,主要用来设置网页的元素的布局,主要有以下属性。1、float:该属性设置元素的浮动方式,可以取none,left和right等3个值,分别表示不浮动,浮在...

Grid网格布局一种更灵活、更强大的二维布局模型!

当涉及到网页布局时,display:flex;和display:grid;是两个常用的CSS属性,它们都允许创建不同类型的布局,但有着不同的用法和适用场景。使用flex布局的痛点当我们使...

React 项目实践——创建一个聊天机器人

作者:FredrikStrandOseberg转发链接:https://www.freecodecamp.org/news/how-to-build-a-chatbot-with-react/前言...

有趣的 CSS 数学函数(css公式)

前言之前一直在玩three.js,接触了很多数学函数,用它们创造过很多特效。于是我思考:能否在CSS中也用上这些数学函数,但发现CSS目前还没有,据说以后的新规范会纳入,估计也要等很久。然...

web开发之-前端css(5)(css前端设计)

显示控制一个元素的显示方式,我们可以使用display:block;display:inline-block;display:none;其中布局相关的还有两个很重要的属性:display:flex;和...

2024最新升级–前端内功修炼 5大主流布局系统进阶(分享)

获课:keyouit.xyz/14642/1.前端布局的重要性及发展历程前端布局是网页设计和开发的核心技能之一,它决定了页面元素如何组织和呈现。从早期的静态布局到现代的响应式布局,前端布局技术经历了...

教你轻松制作自动换行的CSS布局,轻松应对不同设备!

在网页设计中,自动换行的CSS布局是非常常见的需求,特别是在响应式设计中。它可以让网页内容自动适应不同屏幕尺寸,保证用户在不同设备上都能够获得良好的浏览体验。本文将介绍几种制作自动换行的CSS布局的方...

晨光微语!一道 CSS 面试题,伴你静享知识治愈时光

当第一缕阳光温柔地爬上窗台,窗外的鸟鸣声清脆悦耳,空气中弥漫着清新的气息。在这宁静美好的清晨与上午时光,泡一杯热气腾腾的咖啡,找一个舒适的角落坐下。前端的小伙伴们,先把工作的疲惫和面试的焦虑放在一边,...

2023 年的响应式设计指南(什么是响应式设计优缺点)

大家好,我是Echa。如今,当大家考虑构建流畅的布局时,没有再写固定宽度和高度数值了。相反,小编今天构建的布局需要适用于几乎任何尺寸的设备。是不是不可思议,小编仍然看到网站遵循自适应设计模式,其中它有...