靠谱的跑分软件
自古以来,跑分软件常有,而靠谱的跑分软件不常有。当然要评价一个跑分软件是否靠谱一贯以来都很难,你有你的侧重,我有我的理念,但是有两点是必须做到的,那便是说什么就测什么,测什么便是什么。前半句的意思是你要为你的测试目的选择直接且得当的测试项目,后半句则表示,要用得当的测试方法让你得到的结果便是你想要测试的东西。不要说山寨剖析师废话,这当然都是很浅近的道理,但是千万不要以为这两点很随意马虎做到!
要你去丈量一个活人的某个器官有多重随意马虎吗?测试每每都是单项的,但是任何单项的测试都必须运行在系统这个整体里,若何找到一个方法,从整体中把某个单项割裂出来,不被其他成分影响,这是一门很博识的学问。做不做得到这点,直接决定了跑分软件是否靠谱。

这么看的话,兔子靠谱吗?不好说。良久以前兔子跑分的靠谱问题就被吐槽过,个中很多相互独立的项目之间存在着极强的关联性,例如内存性能和整数性能险些是线性干系,与内存子系统的硬件配置关系的关系却没这么强。这暗示着兔子的内存性能的测试严重受处理器系统的影响,结果不一定是真的内存性能——这当然也不一定是兔子跑分的错,但是打消滋扰也是测试软件的必备技能与技能核心所在,否则谁都可以写测试软件了不是(虽然现在的确是谁都在写)。
现在兔子跑分还有这类问题吗?说不定还有。
如果去看看 4.0 版本引入的多任务测试,就会创造在测试运行过程中处理器常常只有一个核心满载,别的核心要么负载较低,要么乃至直接关闭。这对付一个多任务测试而言是一个很不屈常的征象,不仅不屈常,更加违反了常理。反不雅观 3DMark 的物理测试,所有处理器都会永劫光保持 100% 占用率,一贯到测试结束。根据说什么就测什么原则,多任务测试自然该当是用满所有处理器的,兔子的多任务测试明显不如 3DMark 来的更加多任务。
这当然不是唯一的问题,再不雅观察一下图形测试,就会创造测试的 CPU 占用率也显得不正常的高,常常会有 1~2 个乃至更多的核心负载达到最大频率下的 50% 旁边。连续比拟一下 3DMark,就会创造 3DMark 不论实行多么繁芜的 3D 测试,处理器占用都非常低,险些不会超过两位数,而且频率也只比待机高一点。这意味着,兔子的 3D 测试花费了较多的 CPU 资源,终极成绩不仅会受到 GPU 的影响,也会受到 CPU 的影响,看看,说好的测什么便是什么呢?
其他项目山寨剖析师没仔细研究,不过至少可以肯定,兔子之以是可以成为最盛行的测试软件,是由于项目够多、测试系统更完善,更主要的是由于分数比较更直不雅观,知足了用户和媒体之间以大略快捷的办法相互攀比的需求,并不是由于测试本身的技能含量与靠谱程度,也无怪乎有些人叫它娱乐兔。
我要更加代表用户体验
对付普通人而言,跑个分是由于想知道机器的利用体验,这是跑分的目的,也是兔子的宣扬口号之一。这次兔子修正评分标准,也是打着这样一个旗号,新标准能更好的反响用户体验,而不是冷冰冰的数字。为此,兔子做了这样一些改动:增加了单线程性能测试、提升了 3D 测试的繁芜程度、降落了 RAM 和 I/O 等测试的权重比例等。这些修正都是为了更好的代表用户体验吗?我们连续来聊一聊。
首先是增加单线程性能。增加这个当然是对的,毕竟在手机上单线程性能显然比多线程性能更主要。但这更贴近利用体验吗?还真就不一定,至于为什么兔子一贯到 5.0 版本才开始提出这个项目,则更是一个很奇妙的决定,这点非常值得深入八卦一下。
一贯以来,处理器的总整数和总浮点性能在兔子里的比重都很大,这个自几年前手机刚开始遍及多核时就已经是这样了。但是随着核战役的白热化,有很多厂家也自然而然的推出了一些比较奇葩的产品,例如 MTK 刚刚发布的八核 Cortex A53。这些处理器依赖着小而多的核心设计,在兔子跑分中屡屡打破,最新的 MT6795 乃至已经靠近 50000 分大关。这个分数很明显不是用户体验,因此兔子此时引入单线程测试,彷佛是合理的。
但问题来了,如果这真是兔子的目的,那么它从一开始就该当引入这个测试,由于这种 \公众 弱而多 \"大众 的产品并不是本日才涌现,早在之前的八核 Cortex A7、再之前的双四核、乃至更早之前的高通 Scorpion,都是这类 \公众 弱而多 \公众 的设计。如果这样的设计得到的分数不能代表用户体验,那么兔子早在两年前就该当做出这样的改变。但实际上,兔子从多核时期一开始,就彻底而全面的拥抱了多核总性能,一贯对弱而多不闻不问,即便是去年 3.0 到 4.0 的升级,双四核乃至八核 Cortex A7 的涌现都没有让兔子做出这样的改变,这解释问题大概并不在 \"大众 弱而多 \公众 跑高分代不代表用户体验,而在于是谁在这样做。
另一方面,虽然主流的声音一贯是多核无用,但是随着 Android的发展,多核,乃至是弱多核已经成为了不可否认的事实,在这样的事实状态下,软件开拓策略不可能不做出对应的调度,程序员不可能在一个满是弱多核的天下里强行去编写须要强劲单线程才能运行的程序。可以说,这已经成为明晰趋势,在未来也很丢脸到逆转的可能,兔子在此时高调引入单线程测试,趋势上有些说不过去。当然,站在山寨剖析师的态度上,同样条件下,强劲的单线程当然是更好的,只是兔子在此时引入单线程测试,目的大概并不纯挚。
第二个大改变是 3D 测试。兔子表示,现有的 3D 测试压力过小,已经不敷以表示顶级硬件之间的差距,因此在新版测试中加大了 3D 测试的繁芜度和压力,让顶级显卡之间得分的差异得到了更为明显的放大。这在技能上是对的,实际上却是错的。
为什么这么说?缘故原由很大略,目前顶级GPU的最大功耗都已经超过了实际利用中能接管的极限,此时决定利用体验的并不是最大性能,而是在由发热、续航这样的成分决定的极限功耗下的性能。由于不论是 Adreno、PowerVR、Mali 还是 GeForce,自去年一来各自的性能提升都远超极限功耗之外,实际运行中便是谁快谁降频,越快越降频,因此如果真正的从实际体验角度来说,各个产品的 3D 体验实际上是趋同的,感官差异正在变得越来越小而不是越来越大。这点相信大家也都有体会,即便不去考虑实际上绝大多数人会玩的游戏实在根本不须要多少 3D 性能,高端机跑得动而中端机跑不动的游戏也不多;即便有,高端机也没法一贯以那个速率跑下去,一圈流比比皆是。此时,兔子加大 3D 测试的强度、拉大 3D 测试的差异,从技能角度上说没问题,但从体验角度说则是完完备全的背道而驰——事实上越来越靠近的感想熏染,跑分差距却在变得越来越大,这不是打脸嘛。
聊到这里,山寨剖析师一贯在说详细的东西,一贯在说用户体验。什么是用户体验?用户是体验不到整数性能的,日常利用中的体验更多是程序加载速率、网页渲染速率、触摸延迟、程序切换速率这些。但是兔子测的是什么呢?整数运算、浮点运算、2D 绘图、3D 绘图这些。即便是多任务和虚拟机,也只是 API 测试而不是运用测试,这些都是底层性能而不是利用体验,虽然的确决定了利用体验,但是太过间接,中间有无数个环节都可以影响这两者之间的干系性。但是兔子却说自己跑分代表用户体验,这无疑是非常明显的一个问题,明显到兔子自己也不可能不知道。要测试真正的用户体验很难吗?难,但是这不会超出兔子的技能能力之外,就彷佛要办理黄牛问题难吗?难,但是对付正规公司而言也不是问题一样。
有一千种方法可以测试真正的用户体验,兔子却不测,这就好比有一千种方法可以办理黄牛问题,却不动手,这并不是能力问题,也不是态度问题,而是利益问题。这解释,让兔子不去测用户体验的,和让公司放任黄牛专横獗的,是同一个缘故原由。
为谁代言
很明显,这次兔子修正得分标准并不是一次大略的升级,也不是大略的由于要 \"大众 更好的反响利用体验 \"大众 ——即便现行体系有问题,新的体系也并没有办理问题,乃至放大了问题,那么为什么要在这个时候做这样的修正?情由自然有不少,你当然也可以说,我便是想改了,那又若何?但商业公司不会做无缘无端的事情,最可能的情由是,现行体系不利于自己的商业利益,而须要用新的体系来取代。
谁是兔子的商业利益?看看兔子属于谁吧,Cber 们都知道。那现行体系为什么会影响商业利益?现在的产品格局并不存在这样的问题,改不改分都无所谓,但大概未来的某个产品在现行体系下的表现不好,以是才须要在这个韶光节点发布新版本?下半年是厂商新品发布密集期,也会有很多新的平台走向市场:高通 805、810,MTK 的八核 A53、三星的 64bitExynos、nVIDIA的 Tegra K1 64bit 版。如果看看这些平台,我们就能创造,兔子这次发布新的评分标准,彷佛完备是在针对个中的某一个做定点 \"大众 优化 \"大众,没错,那便是 Tegra K1 64bit 版。
和其他所有产品不同,Tegra K164bit 版的设计思路和苹果的 A 系列很像,放弃了大量弱核心的设计思路,转而实现了两个巨大而强劲的 64bit 单核心——代号丹佛。同时,nVIDIA 为 Tegra K1 Denver 配备了迄今为止最强的 Kepler GPU,其性能远超目前所有的竞争对手。看到这里,相信大家都明白了,谁在兔子的新标准中受益最大?自然是 Tegra K1 Denver:多线程总性能的掉队被强劲的单线程所填补,新增的单线程项目完备针对这点;3D 测试采取 PC 级的引擎,加大测试压力,提高分数差异,这也完备是迎合了 Kepler 的口味。为什么兔子要在此时修正一个对 Tegra K1 Denver 如此有利的测试标准?这极为明显的暗示了 Tegra K1 Denver 和兔子的利益紧密契合,必须要修正测试标准,好让 Tegra K1 Denver 的表现足够好,也便是说,不才半年或许会有一台手机,搭载 Tegra K1 Denver 处理器,同时和兔子有明确的利益关系。这台手机是什么?说不定短短几天后就将揭晓,咱们拭目以待。
光这么说感想熏染还不足明显,我们可以仿照一下 TegraK1 Denver 在两个标准下的得分,直不雅观地看一下这个优化到底有多强大。参考一下 iPhone 5s 的跑分,在现行版本下 iPhone 5S 的得分大约在 30000 分旁边,并不算高。个中整数性能 1900 分旁边,浮点性能 1550 分旁边,RAM 运算 600 分,RAM 速率 2200 分,3D 性能 11000 分旁边。Tegra K1 Denver 的频率远高于 A7 的 1.3GHz,就当两倍吧,因此 CPU 得分也翻倍,总分 +3500,RAM 性能也按翻倍处理,+2800。Tegra K1 Denver Kepler 的性能十分强大,相信在 1080p 下可以跑满 60FPS,但是由于 iPhone 5S 也跑到了 60FPS,垂直同步无法打破,得分无法增长。再考虑一下其他的杂项提升,Tegra K1 Denver 在现有的兔子测试标准下的得分可能也便是 40000 旁边。要知道,Tegra4 的得分是 36000,高通 800AB 的得分是 37000,三星 Exynos 5422 的得分大约是 38000,华为麒麟 920 已经打破了 40000 分,MTK 乃至跑出了 47000 的胆怯数字,即将问世的 805、810、Exynos 64bit、MTK 的高频版,显然都将轻松打破 40000 乃至 50000 分大关,这样一来,新一代跑分天王居然连排行榜前十乃至前二十都进不了,被甩开 20000 分,这让人脸往哪儿搁啊。
那么在新的评分体系下呢?由于增加了单线程性能,因此 Tegra K1 Denver 还能再得到一份 CPU 成绩,算 +3500,外加 3D 测试压力的增大,预期至少可以多得到 5000 分,乃至可以多拿到 10000 分,这样一来,不论其他的产品在新版中能得到多大的提升,Tegra K1 Denver 的总分险些可以确保逼近乃至超越 50000,成为顶级跑分俱乐部的一员。
如果真是这样,什么叫家当合营?这就叫。在自己新品发布之前,针对性的修正跑分软件的测试标准,提升自己新产品的表现,从而把跑分天王这样的称号牢牢攥在手里。从商业上说,这样的安排是完美的,效果无疑也会相称空想,正所谓三流企业靠作弊,二流企业堆配置,一流企业玩标准,让基准测试为我的硬件优化,这一定是胜利的绝对保障。至于输家,自然是跑分软件自己了。
消费者和厂商之间的信息不对称是不可能办理的问题,媒体、测试软件在这两者之中扮演的是桥梁的角色,帮助消费者得到更多信息,缓解信息不对称。这就哀求媒体和测试软件不说做到客不雅观,至少也须要做到公正,即便连公正都做不到,也要坚持最基本的底线,那便是独立,而独立正好是媒体和测试软件最大的困境。传统媒体自然不必说,最近几年,自媒体热炒,各种独立评测者如雨后春笋,评测视频弗成偻指算。他们说的对不对,好不好,这些实在都是次要的,最主要的问题是,这些自媒体、测试软件如何养活自己?做视频要钱,开拓要钱,宣扬也要钱,在中国你不可能指望你的用户和不雅观众为你付费,那就只能靠投资,问题是拿谁的钱?拿了投资,就必须为投资人的利益说话,这是商业的根本,但是当一个手机测试软件团队拿了手机厂商当投资,就很难不成为投资人的营销和斗争工具,一个本该为用户利益代言的群体,却成为了厂家的傀儡,这无疑是悲哀的。评测软件如兔子,自媒体如 Zealer,都很难洗脱这样的嫌疑,任何一点方向性,都很难避免被放在聚光灯下,研究你的动机,而一旦被疑惑,乃至被打上标签,也就意味着你自媒体和测试软件生涯的结束。
为消费者代言,你将成为太阳,燃烧自己照亮他人;然而人不可能成为太阳,因此这就成了自媒体和评测软件的去世结。
到底怎么跑分
聊到这里跑题有些远了,还是回到兔子身上,如果兔子真的要测试用户体验,那么该当测试什么项目呢?山寨剖析师认为首当其冲该当引入编译性能测试,由于随着 Android L 的发布,ART 取代 Dalvik 已经是一定的趋势,因此未来所有 Android 手机在安装程序时都会经历一段编译过程,这个过程的速率会直接影响用户体验,完备有必要纳入测试范围内。其次是多程序切换速率。Android 作为多任务系统,在多个 App 中切换是常有的事情,切换的速率直接影响用户体验,兔子完备可以虚拟几个 App,然后在个中相互切换,丈量切换韶光。接下来是温度限定下的性能测试,给定一段韶光,实行性能测试,当温度超过舒适温度,例如 45 度时测试停息,跌掉队连续,末了评价这段韶光内实行的测试总量。以此类推,还可以引入定续航性能测试,进行测试的同时打算对应的电量花费速率,通过掌握性能,令电量花费速率趋近于一个固定时间的续航,例如对 CPU 测试而言设定为担保续航 5 小时,对 GPU 测试而言设定为 3 小时这样。除此以外,诸如 UI 帧速与帧速稳定性、游戏与数据加载速率、浏览器渲染与 HTML5 性能、3G/4G/WiFi 网络性能等也应该纳入到测试范围内。这些可以与理论测试结合起来,共同为用户展示一个全面,关键是,确实能反响利用体验的结果,这才是一个测试软件应该做到的东西。
兔子有实力实现这些吗?当然有,问题只在兔子背后的利益是否许可兔子这么测。如果未来兔子连续坚持这样的升级和开拓思路,那兔子跑分变成娱乐兔也便是不可避免的了。









