我正在学习缓存行以及循环步幅对缓存的影响。我看到了this这个页面,它展示了循环步幅与执行时间之间的关系。根据基准测试结果,增加循环步幅会降低执行时间,这让我非常困惑。如果我理解正确的话,假设缓存行是64字节,在第一个案例中,循环步幅仅为1,这意味着循环按顺序遍历数组元素,那么执行时间应该最短,因为16个整数(4字节x16=64字节)被加载到缓存中。执行时间在步幅为16时应最短,因为所有16个元素都被加载到同一缓存行中。当步幅增加到16以上时,执行时间应该增加,因为数组元素不在缓存行中,但页面上的图表完全相反。