我有4个机器学习模型
每个大小为2GB
,总计8GB
。 每次我都会收到大约100个请求
。每个请求需要1秒
左右。
我有一台拥有15GB RAM
的计算机。现在,如果我增加Gunicorn中工作进程的数量
,总内存消耗将升高。所以我不能把工人数量增加到2个以上。
因此,我有一些关于此的问题:
- 工人如何在它们之间
共享模型或内存
? - 考虑到上述情况,哪种类型的工作进程适合,
同步还是异步
? - 如果有解决方案,如何使用
Gunicorn
中的preload
选项? 我使用过它,但没有帮助。也许我用错了。
这是我正在使用的Flask代码
https://github.com/rathee/learnNshare/blob/master/agent_api.py