在Tensorflow Serving中进行推断时启用XLA编译是否可能?
(我希望这只是一些未记录的配置,而不需要实现自定义Servable。)
在Tensorflow Serving中进行推断时启用XLA编译是否可能?
(我希望这只是一些未记录的配置,而不需要实现自定义Servable。)
@njs,
不建议在推理过程中进行编译。推理时间的编译会导致HBM内存不足,使芯片无法处理请求。
推荐的解决方案是:
使用允许的批处理大小的批处理功能来限制运行时的编译次数。
将这些允许的批处理大小的所有编译都放在模型加载时间而不是推理时间进行。这样,在加载后您的模型就准备好进行推理,而不是在推理时间经历高延迟的编译过程。