问题
在编写OpenGL库的Matrix类时,我遇到了一个问题:是否使用Java数组或缓冲器策略来存储数据(JOGL提供矩阵操作的直接缓冲区复制)。为了分析这个问题,我编写了一个小型性能测试程序,比较了Arrays vs Buffers vs direct Buffers上循环和批量操作的相对速度。
我想在这里分享我的结果(因为我觉得它们非常有趣)。请随意评论和/或指出任何错误。
代码可在pastebin.com/is7UaiMV中查看。
注释
循环读取数组实现为A [i] = B [i],否则JIT优化器将完全删除该代码。实际的var = A [i]看起来差不多。
对于数组大小为10,000的样本结果,很可能JIT优化器已用类似System.arraycopy的实现替换了循环的数组访问。
Java没有批量获取buffer-> buffer,因为它将A.get(B)实现为B.put(A),因此结果与批量放置结果相同。
结论
在几乎所有情况下,强烈建议使用Java内部数组。不仅是put/get速度要快得多,JIT在最终代码上的优化也更好。
只有同时满足以下两个条件才应该使用缓冲区:
- 您需要处理大量数据。
- 这些数据大多数或总是进行批量处理。
请注意,后端缓冲区具有支持缓冲区内容的Java Array。建议对此后缓冲区执行操作,而不是循环放置/获取。
只有当您担心内存使用并且从不访问底层数据时,才应使用直接缓冲区。它们比非直接缓冲区稍慢,如果访问底层数据,则慢得多,但使用的内存较少。此外,在使用直接缓冲区将非字节数据(如浮点数组)转换为字节时,会有额外的开销。
更多细节请参见此处:
示例结果
注意:百分比仅供阅读方便,没有实际意义。
使用大小为16的数组进行10,000,000次迭代...
-- Array tests: -----------------------------------------
Loop-write array: 87.29 ms 11,52%
Arrays.fill: 64.51 ms 8,51%
Loop-read array: 42.11 ms 5,56%
System.arraycopy: 47.25 ms 6,23%
-- Buffer tests: ----------------------------------------
Loop-put buffer: 603.71 ms 79,65%
Index-put buffer: 536.05 ms 70,72%
Bulk-put array->buffer: 105.43 ms 13,91%
Bulk-put buffer->buffer: 99.09 ms 13,07%
Bulk-put bufferD->buffer: 80.38 ms 10,60%
Loop-get buffer: 505.77 ms 66,73%
Index-get buffer: 562.84 ms 74,26%
Bulk-get buffer->array: 137.86 ms 18,19%
-- Direct buffer tests: ---------------------------------
Loop-put bufferD: 570.69 ms 75,29%
Index-put bufferD: 562.76 ms 74,25%
Bulk-put array->bufferD: 712.16 ms 93,96%
Bulk-put buffer->bufferD: 83.53 ms 11,02%
Bulk-put bufferD->bufferD: 118.00 ms 15,57%
Loop-get bufferD: 528.62 ms 69,74%
Index-get bufferD: 560.36 ms 73,93%
Bulk-get bufferD->array: 757.95 ms 100,00%
使用大小为1,000的数组进行100,000次迭代...
-- Array tests: -----------------------------------------
Loop-write array: 22.10 ms 6,21%
Arrays.fill: 10.37 ms 2,91%
Loop-read array: 81.12 ms 22,79%
System.arraycopy: 10.59 ms 2,97%
-- Buffer tests: ----------------------------------------
Loop-put buffer: 355.98 ms 100,00%
Index-put buffer: 353.80 ms 99,39%
Bulk-put array->buffer: 16.33 ms 4,59%
Bulk-put buffer->buffer: 5.40 ms 1,52%
Bulk-put bufferD->buffer: 4.95 ms 1,39%
Loop-get buffer: 299.95 ms 84,26%
Index-get buffer: 343.05 ms 96,37%
Bulk-get buffer->array: 15.94 ms 4,48%
-- Direct buffer tests: ---------------------------------
Loop-put bufferD: 355.11 ms 99,75%
Index-put bufferD: 348.63 ms 97,93%
Bulk-put array->bufferD: 190.86 ms 53,61%
Bulk-put buffer->bufferD: 5.60 ms 1,57%
Bulk-put bufferD->bufferD: 7.73 ms 2,17%
Loop-get bufferD: 344.10 ms 96,66%
Index-get bufferD: 333.03 ms 93,55%
Bulk-get bufferD->array: 190.12 ms 53,41%
使用大小为10,000的数组进行100,000次迭代...
-- Array tests: -----------------------------------------
Loop-write array: 156.02 ms 4,37%
Arrays.fill: 109.06 ms 3,06%
Loop-read array: 300.45 ms 8,42%
System.arraycopy: 147.36 ms 4,13%
-- Buffer tests: ----------------------------------------
Loop-put buffer: 3385.94 ms 94,89%
Index-put buffer: 3568.43 ms 100,00%
Bulk-put array->buffer: 159.40 ms 4,47%
Bulk-put buffer->buffer: 5.31 ms 0,15%
Bulk-put bufferD->buffer: 6.61 ms 0,19%
Loop-get buffer: 2907.21 ms 81,47%
Index-get buffer: 3413.56 ms 95,66%
Bulk-get buffer->array: 177.31 ms 4,97%
-- Direct buffer tests: ---------------------------------
Loop-put bufferD: 3319.25 ms 93,02%
Index-put bufferD: 3538.16 ms 99,15%
Bulk-put array->bufferD: 1849.45 ms 51,83%
Bulk-put buffer->bufferD: 5.60 ms 0,16%
Bulk-put bufferD->bufferD: 7.63 ms 0,21%
Loop-get bufferD: 3227.26 ms 90,44%
Index-get bufferD: 3413.94 ms 95,67%
Bulk-get bufferD->array: 1848.24 ms 51,79%