我正在使用tensorflow的
centernet_resnet50_v2_512x512_kpts_coco17_tpu-8
目标检测模型,在Nvidia Tesla P100上提取人物视频中的边界框和关键点。使用tensorflow.org提供的预训练模型,我能够处理大约每秒16帧的速度。有什么方法可以提高这个模型的评估速度吗?以下是我一直在研究的一些想法:
- 修剪模型图,因为我只检测1种类型的对象(人)
- 还没有成功做到这一点。在构建模型时更改
label_map
似乎不能改善性能。
- 还没有成功做到这一点。在构建模型时更改
- 硬编码输入大小
- 还没有找到一个好的方法来做到这一点。
- 将模型编译为优化形式,使用类似于TensorRT之类的东西
- 尝试将模型转换为TensorRT并没有任何性能改进。
- 批量预测
- 看起来预训练模型的批量大小被硬编码为1,到目前为止,当我尝试使用
model_builder
更改批量大小时,我看到性能下降。 - 我的GPU利用率约为75%,所以我不知道是否有太多可以提升的空间。
- 看起来预训练模型的批量大小被硬编码为1,到目前为止,当我尝试使用