包含 vLLM 标签的文章

在上一篇文章《GLM-4-9B-Chat 模型本地推理部署(一)项目Demo部署》中,我们介绍了如何准备环境以支持 GLM-4-9B-Chat 模型的 Demo 本地部署。现在,我们将探讨如何使用 vLLM 来创建一个命令行界面(CLI),并让用户能够与模型进行交互。什么是 vLLM?vLLM 是由伯克利大学 LMSYS 组织开源的 LLM 推理和服务框架,其具备快速、易用的特点。该框架运用...