应用程序性能中基准线和基准测试的区别

Question

应用程序性能中基准线和基准测试的区别

performancedefinition

10

什么是基线和基准？它们的最佳定义是什么，如何对一组数字进行基线处理并对另一组进行基准测试？

- gagneet

4个回答

5

你好，Gagneet，我是Windows性能团队的成员：以下是我们使用这些术语的方式。

基准线是一种已知配置的测量结果，用作后续测量的参考。对于基准线，我们对被测量的事物进行表征：例如，以冷启动时间为例。在这里，我们有一组经过充分表征的机器——这意味着我们知道它们的工作原理，有良好的驱动程序，并且硬件没有损坏或缺陷。

在这些硬件上，我们有多个“基准线”测量值，例如XP-RTM、XP-SP2、Vista-RTM、Vista-SP1、Vista-SP2等等。

针对每个基准线，我们都有一组充分表征和理解的测量值，包括启动的所有阶段、CPU、磁盘和内存利用率、DLL加载数量等等。

建立了基准线之后，我们就可以进行其他测量，并将其与基准线进行比较。例如，我们目前正在开发Windows 7。对于每个构建（每天），我们运行一组启动时间测试。我们将每个Win-7构建的所有特性与基准线测量值进行比较。这包括之前的所有Win-7构建。这让我们看到差异所在，并帮助我们深入分析问题区域。这里有更多细节。

- Foredecker

欢迎你！我正在努力从我们的Win-7工作中解脱出来，这样我就可以写更多关于工具的博客了。我们即将推出一次新版本。 - Foredecker

4

在科学研究中，基准测试是一种测试，基线测试是一种结果。让我们看一个基准测试的例子：我们可以拿取5000个英文句子，并使用实验室的四核Dell机器通过各种算法将其翻译成西班牙语。因为我们保持了数据和机器不变，所以我们可以有意义地比较不同算法完成任务所需的时间，以及它们相对准确性（与黄金标准人工翻译相比）。为了找到这个基准测试的基线，我们可能会编写一个非常天真的翻译算法，只是查找每个单词的最常见翻译，而没有考虑上下文。测量这个算法与我们的人工翻译的准确度给我们一个最低分数的想法-基线-其他人必须超越这个分数，并让我们感受到什么水平的准确度被视为“好”。从基线的另一端，上限也是一个有用的标尺。在翻译示例中，我们可以通过测量其中一种人工翻译与其他翻译的准确度来找到上限。这使我们了解了在达到人类不同意的高度之前，在“准确性”度量方面可能达到的高度。我们希望我们的机器翻译算法在基线和上限之间表现。

- Tommy Herbert

1

如果我说的不对请指出，但我认为“基准线”是指已知的良好状态，而“基准测试”则是指当前状态。您应该进行基准测试并将其与基准线进行比较。

- gfrizzle

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- VonC · Accepted Answer

来自SPR（软件生产力研究）的有趣定义：

基准线和基准测试是相似但不同的活动。

形象地说，基准线是组织衡量未来重要性能特征的“底线”，并用于以后的参考。

这不一定是一个“好”的状态，只是一个参考。

基准测试最好通过单词本身的起源来理解：

从事重复任务的工匠，例如将木材锯成一致长度，通常在他们的工作台上放置刻痕以指示在切割之前板材的位置。字面上，基准成为了比较的标准和过去成功的指标。

基本上：

基准线是关于确定重要状态的标识，意味着您的数字集合符合批准状态，并得到公开认可。
基准是关于评估应用程序相对性能的。