qwen/Qwen-72B-Chat部署ModelScope默认直接填满第一个GPU,导致内存溢出,这个有解决办法吗?
2000元阿里云代金券免费领取,2核4G云服务器仅799元/3年,新老用户都有优惠,立即抢购>>>
vllm 部署的话,有个参数可以设置,--tensor_parallel_size 此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352