我们正在使用一台工作站 Core i7 和 AMD FirePro 8000。对于视频解码(8K,7680x4320 视频帧 ~ 66MB hapq 编解码器),我们尝试使用以下显而易见的循环:
1. 从流中获取帧 2. 映射缓冲区 3. 多线程解码帧切片到映射的缓冲区 4. 取消映射缓冲区 5. 从绑定的 PBO 将 Texsubimage 图像子集插入纹理
但是步骤3. 多线程解码切片到映射的缓冲区非常慢 - 至少需要40毫秒才能完成。
当我们将其拆分为两个步骤时,
3a. 多线程解码帧切片到 malloced 内存 3b. 从 malloced 内存复制到映射的缓冲区
这两个步骤都需要8+9 ~ 17毫秒才能完成。现在我们有了一个相当可接受的解决方案,但额外的复制步骤仍然很烦人。
为什么多线程解压到映射内存会特别慢?如何避免额外的复制步骤?
编辑1: 这是生成、定义和映射缓冲区的方法:
案例2(中等缓慢,t3-t2〜9毫秒,t2-t1〜8毫秒):
1. 从流中获取帧 2. 映射缓冲区 3. 多线程解码帧切片到映射的缓冲区 4. 取消映射缓冲区 5. 从绑定的 PBO 将 Texsubimage 图像子集插入纹理
但是步骤3. 多线程解码切片到映射的缓冲区非常慢 - 至少需要40毫秒才能完成。
当我们将其拆分为两个步骤时,
3a. 多线程解码帧切片到 malloced 内存 3b. 从 malloced 内存复制到映射的缓冲区
这两个步骤都需要8+9 ~ 17毫秒才能完成。现在我们有了一个相当可接受的解决方案,但额外的复制步骤仍然很烦人。
为什么多线程解压到映射内存会特别慢?如何避免额外的复制步骤?
编辑1: 这是生成、定义和映射缓冲区的方法:
glGenBuffers(1, &hdf.m_pbo_id);
glBindBuffer(GL_PIXEL_UNPACK_BUFFER, hdf.m_pbo_id);
glBufferData(GL_PIXEL_UNPACK_BUFFER, m_compsize, nullptr, GL_STREAM_DRAW);
hdf.mapped_buffer = (GLubyte*)glMapBuffer(GL_PIXEL_UNPACK_BUFFER, GL_WRITE_ONLY);
编辑2:
有人提出了一个问题,关于时间的测量方式。只有非gl代码才被测量。伪代码如下:
情况1(非常慢,t2-t1约为40ms):
gl_map();
t1 = elapse_time();
unpack_multithreaded_multiple_snappy_slices_into_mapped_buffer();
t2 = elapse_time();
gl_unmap();
案例2(中等缓慢,t3-t2〜9毫秒,t2-t1〜8毫秒):
gl_map();
malloc_sys_buffer();
t1 = elapse_time();
unpack_multithreaded_multiple_snappy_slices_into_sys_buffer();
t2 = elapse_time();
memcpy_sys_buffer_into_mapped_buffer();
t3 = elapse_time();
gl_unmap();
在测量的代码块中没有涉及OpenGL代码。可能是写穿/ CPU缓存问题。
map - long calculation - unmap - draw - repeat
。在这种情况下,map 可能需要很长时间,因为它要等到 draw 完成后才能开始。但这并不意味着长时间计算更慢。它只是稍后开始。如果没有看到 [MCVE],我认为无法回答这个问题。 - BDL