Skip to content

llm-in-depth #379

@hans0809

Description

@hans0809

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

这是我在学习LLM过程中记录的笔记,参考了

整理后汇总成“快速入门LLM” 的系列教程项目,从LLM基础原理到实践操作,循序渐进讲解核心概念与技能。

立项理由

现在市面上的LLM入门教程,很多都是一口气把所有东西都讲完,信息量太大,初学者很容易迷糊。这个项目把内容拆成“基础篇”和“进阶篇”,循序渐进,帮助读者轻松上手LLM:

  • 基础篇:快速掌握LLM的核心概念和实操技能,让读者有底气的去微调基于Hugging Face等框架的LLM。
  • 进阶篇:围绕开源LLM项目minimind源码,深入讲解基础篇里一笔带过的难点(查漏补缺),比如位置编码优化、注意力机制改进、稀疏模型、微调和蒸馏,让读者真正看懂现代LLM的内部运行逻辑。

项目受众

  • 有Python与深度学习基础,想快速掌握LLM(只看基础篇即可)
  • 想了解现代LLM架构与训练技巧(基础篇+进阶篇),并动手实践的学生和开发者

项目亮点

  • 循序渐进:先用《基础篇》打基础,学完后可根据学习目的选择是否继续学习《进阶篇》
  • 细节讲解:理论和代码并行,详解代码背后的公式推导、实现逻辑、训练工程的隐藏细节。
  • shape流程图注释:每一个模块都标明输入输出尺寸,帮助读者直观理解数据流。
  • 从源码看架构:不仅知道“怎么做”,更理解“为什么这么做”。

项目规划

所有章节已全部编写完成,可在后续视情况进行补充。

基础篇:

序号 文章链接
1 大模型炼丹术(一):从 tokenizer 开始,为自回归预训练准备数据集
2 大模型炼丹术(二):从离散 token IDs 到具有语义信息的 embedding
3 大模型炼丹术(三):从单头到多头,深度解析注意力机制
4 大模型炼丹术(四):动手搭建 GPT-2 架构
5 大模型炼丹术(五):LLM 自回归预训练过程详解
6 大模型炼丹术(六):剖析 LLM 的解码策略
7 大模型炼丹术(七):LLM 微调:训练一个垃圾邮件分类器
8 大模型炼丹术(八):LLM 指令微调:训练一个人工智能助手

进阶篇:

序号 文章链接
1 MiniMind 源码解读(一):如何从头训练 tokenizer
2 MiniMind 源码解读(二):一行代码之差,模型性能提升背后的 RMSNorm 玄机
3 MiniMind 源码解读(三):原始 Transformer 的位置编码及其缺陷
4 MiniMind 源码解读(四):旋转位置编码原理与应用全解析
5 MiniMind 源码解读(五):魔改注意力机制,细数当代 LLM 的效率优化手段
6 MiniMind 源码解读(六):从稠密到稀疏,详解专家混合模型 MoE
7 MiniMind 源码解读(七):像搭积木一样构建一个大模型
8 MiniMind 源码解读(八):LLM 预训练实践
9 MiniMind 源码解读(九):指令微调详解,让大模型从“能说”变得“会听”
10 MiniMind 源码解读(十):DPO - 大模型对齐训练新范式
11 MiniMind 源码解读(十一):LoRA - LLM 轻量化微调利器
12 MiniMind 源码解读(十二):从白盒到黑盒,全面掌握大模型蒸馏技术

已完成内容

https://github.com/hans0809/llm-in-depth

❗❗❗注意事项❗❗❗:为了便于我们跟你取得联系,请务必加我们的微信:at-Sm1les(备注你来自于项目立项即可),发起立项申请后DOPMC成员将会在7天内给出审核意见并评论在该Issue,若7天内无反对意见则默认立项通过,如有任何疑问或者需要帮助均可随时联系微信:at-Sm1les

  • 我已知悉上述注意事项并添加了微信:at-Sm1les

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions