在上一篇文章《GLM-4-9B-Chat 模型本地推理部署(一)项目Demo部署》中,我们介绍了如何准备环境以支持 GLM-4-9B-Chat 模型的 Demo 本地部署。现在,我们将探讨如何使用 vLLM 来创建一个命令行界面(CLI),并让用户能够与模型进行交互。什么是 vLLM?vLLM 是由伯克利大学 LMSYS 组织开源的 LLM 推理和服务框架,其具备快速、易用的特点。该框架运用...

vLLMvLLM 是一个专注于部署大型语言模型的工具,旨在提高大型语言模型在实际应用中的效率和可扩展性。vLLM 主要解决了以下问题: 推理加速:通过优化技术如张量并行、流水线并行等方式提高推理速度。 内存优化:减少模型在部署过程中的内存占用。 动态批处理:支持动态批量处理请求,以提高吞吐量。 模型微调:允许用户对模型进行微调以适应特定的任务需求。 LangChainLangChain 是一...

LLM101n 是由 Andrej Karpathy 开发的一套教程,旨在从零开始构建一个名为“Storyteller”的大型语言模型 (LLM)。这个项目的独特之处在于它不仅能让模型创作和精炼小故事,还能让用户与 AI 合作,共同享受创作过程和体验 AI 讲述故事的魅力。与现有的 AI 模型不同,Storyteller 专注于增强互动性和创造性。  ht...

本文介绍了正向传播和反向传播在神经网络中的作用。正向传播是从输入到输出的计算过程,反向传播则利用链式法则计算参数梯度。在训练模型时,两者交替进行,反向传播的梯度计算用于优化模型参数。理解反向传播的基本原理——链式法则,是深度学习的关键之一。 正向传播正向传播时神经网络模型计算输出的过程。在这个阶段,输入数据通过网络的每一层,每个层的神经元会对输入进行加权求和,然后通...