ARM Cortex-A8：一次内存读取可以获取多少字节？

Question

ARM Cortex-A8：一次内存读取可以获取多少字节？

4

我正在尝试改进在ARM Cortex-A8处理器上运行的图像处理项目。

我从内存中访问8位灰度图像数据。在我的函数中，现在我通过逐字节方式访问单个像素值。

我认为通过使用NEON，我可以通过一次从内存中访问128/8 = 16个字节并在我的函数中使用它们来改进此过程。但是，在运行更改版本后，我发现这实际上比逐字节访问花费更多时间。我认为我的使用NEON获取数据已成为瓶颈，需要更多时间来完成，超过了计算时间。

ARM Cortex-A8的数据总线大小是多少？每个内存获取访问多少字节？

- HaggarTheHorrible

缓存通常会将其抽象化。它将进行突发读写操作从SDRAM中。如果您正在使用直接屏幕内存，则缓存可能是写入透过的。答案取决于您使用的内存。您应该始终对内存性能进行基准测试，然后与您的代码进行比较。请参见：Cortex-A8 memory copy。 - artless noise

2个回答

0

你可能会遇到流水线停顿的情况。如果你想通过Neon进行读取，在将数据用于CPU核心之前会有一些延迟。

- onemasse

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- old_timer · Accepted Answer

来自Cortex A8 TRM：

“您可以配置处理器连接到提供系统设计灵活性的64位或128位AXI互连。”

NEON是否必要，也许您正在比较苹果和橙子？您可以使用ldrd / strd或ldm / stm来获得64位传输，而不是ldrb / strb。ARM / AXI可以足够聪明地向前查看，并将较小的传输分组为更大的传输，例如将两个32位传输合并为一个64位传输。但我不会依赖它。我只是提到它，以防您发现通过更改为ldr / str或ldrd / strd，您没有实现任何性能提升。

你隔离了（无数据处理）读取或写入循环，并尝试字节，字和双字吗？可能是从字中提取字节的代码超过了总线上的节省。

这是什么类型的存储器？这是芯片内还是芯片外，这种存储器相对于AXI（ARM）时钟速度有多快？

您在此区域启用了数据缓存吗？如果是，则可能是哑点，第一个字节读取将使用最佳数据总线大小进行缓存行填充，该缓存行内的后续读取不会达到AXI总线，更不用说目标存储器了。同样，写入应该只到达缓存，并稍后以优化的宽总线大小传输到目标。这取决于缓存/写缓冲区的配置。