https://csxai.com/

LLM101n 是由 Andrej Karpathy 开发的一套教程，旨在从零开始构建一个名为“Storyteller”的大型语言模型 (LLM)。这个项目的独特之处在于它不仅能让模型创作和精炼小故事，还能让用户与 AI 合作，共同享受创作过程和体验 AI 讲述故事的魅力。与现有的 AI 模型不同，Storyteller 专注于增强互动性和创造性。

https://github.com/karpathy/LLM101n

本课程尚未发布，鼠鼠会第一时间更新。

Syllabus

Chapter 01 Bigram Language Model (language modeling)
Chapter 02 Micrograd (machine learning, backpropagation)
Chapter 03 N-gram model (multi-layer perceptron, matmul, gelu)
Chapter 04 Attention (attention, softmax, positional encoder)
Chapter 05 Transformer (transformer, residual, layernorm, GPT-2)
Chapter 06 Tokenization (minBPE, byte pair encoding)
Chapter 07 Optimization (initialization, optimization, AdamW)
Chapter 08 Need for Speed I: Device (device, CPU, GPU, ...)
Chapter 09 Need for Speed II: Precision (mixed precision training, fp16, bf16, fp8, ...)
Chapter 10 Need for Speed III: Distributed (distributed optimization, DDP, ZeRO)
Chapter 11 Datasets (datasets, data loading, synthetic data generation)
Chapter 12 Inference I: kv-cache (kv-cache)
Chapter 13 Inference II: Quantization (quantization)
Chapter 14 Finetuning I: SFT (supervised finetuning SFT, PEFT, LoRA, chat)
Chapter 15 Finetuning II: RL (reinforcement learning, RLHF, PPO, DPO)
Chapter 16 Deployment (API, web app)
Chapter 17 Multimodal (VQVAE, diffusion transformer)

Syllabus

Chapter 01 Bigram 语言模型（语言建模）
Chapter 02 Micrograd（机器学习，反向传播）
Chapter 03 N-gram模型（多层感知器，matmul，gelu）
Chapter 04 注意力机制（注意力机制，softmax，位置编码器）
Chapter 05 Transformer（Transformer，残差，LayerNorm，GPT-2）
Chapter 06 词嵌入模型（minBPE，字节对编码）
Chapter 07 优化（初始化，优化，AdamW）
Chapter 08 风驰电掣1: 设备（设备，CPU，GPU）
Chapter 09 风驰电掣2: 精度（mixed precision training，fp16，bf16，fp8，...）
Chapter 10 风驰电掣3: 分布式（分布式优化，DDP，ZeRO）
Chapter 11 数据集（数据集，数据加载，合成数据生成）
Chapter 12 推理1: kv-cache（kv-cache）
Chapter 13 推理2: 量化（量化）
Chapter 14 微调1: SFT（监督微调SFT，PEFT，LoRA，chat）
Chapter 15 微调2: RL（强化学习RL，RLHF，PPO，DPO）
Chapter 16 部署（API，Web 应用）
Chapter 17 多模态（VQVAE，diffusion transformer）