AI 学习路线:从 LLM 到 AI Agent,再到 Skills
一篇面向初学者的 AI 学习路线:先理解 LLM 基础,再学习模型应用与 Agent,最后把重复任务沉淀为 Skills 和工作流。
AI 学习路线:从 LLM 到 AI Agent,再到 Skills
很多人学习 AI 时,会直接从工具使用开始:ChatGPT、Claude、Gemini、Cursor、Claude Code、Codex、OpenRouter,各种工具轮流试一遍。这样当然有用,至少能快速感受到 AI 的能力。
但如果只停留在“会用工具”,很快就会遇到瓶颈:知道 AI 很强,却不知道它为什么强;知道 Agent 很火,却不知道它到底如何执行任务;看到 Skills、MCP、工作流自动化,也不知道它们之间是什么关系。
我更推荐把 AI 学习拆成一条清晰路线:
理解 LLM → 学会调用模型 → 学习 Agent → 掌握工具调用 → 建立工作流 → 沉淀 Skills。
这条路线的重点不是追热点,而是把能力一层一层搭起来。你不一定要训练自己的大模型,也不一定要一上来手搓复杂框架,但至少要知道每一层解决什么问题。
这篇文章整理一条适合普通学习者的路线:从 LLM 基础,到模型应用,再到 AI Agent,最后到 Skills 和可复用工作流。
一、先分清几个核心概念
在正式学习之前,先把几个容易混在一起的概念讲清楚。
1. LLM 是底层能力
LLM 是 Large Language Model,也就是大语言模型。ChatGPT、Claude、Gemini、Qwen、DeepSeek 这类产品,本质上都建立在大语言模型能力之上。
学习 LLM,不是让你一开始就训练千亿参数模型,而是至少要理解:
- 文本为什么要切成 token;
- Transformer 和 attention 大致在解决什么问题;
- 模型为什么能续写、总结、翻译和写代码;
- 上下文窗口为什么会限制模型记忆;
- 预训练、微调、RAG、推理分别是什么意思;
- 幻觉为什么会出现,为什么不能把模型当搜索引擎。
你可以暂时不懂所有数学细节,但要建立基本地图。否则后面学习 Agent、工具调用、上下文管理时,很容易只记住名词,看不懂本质。
2. 模型应用是把 LLM 接入真实任务
理解 LLM 之后,下一步不是立刻研究复杂 Agent,而是先学会怎么调用模型。
最基础的模型应用包括:
- 调用 API;
- 设置 system prompt;
- 控制 temperature、max tokens 等参数;
- 处理输入输出;
- 做文本分类、摘要、翻译、信息抽取;
- 使用 tokenizer 估算 token;
- 使用开源模型库加载模型和运行推理。
这一层看起来简单,但非常重要。很多 Agent 问题,本质上不是 Agent 多高级,而是最基础的输入输出、上下文、格式约束没有做好。
3. Agent 是带目标和工具的执行系统
普通聊天机器人主要是回答问题,而 AI Agent 更强调“围绕目标执行任务”。
一个最简单的 Agent 循环通常包括:
1. 接收用户任务; 2. 理解目标; 3. 选择工具; 4. 执行动作; 5. 观察结果; 6. 根据结果继续调整; 7. 直到完成任务或判断无法继续。
Tool Calling、函数调用、ReAct、规划、记忆、上下文压缩、多 Agent 协作,都是围绕这个循环展开的。
你可以把 Agent 理解为:LLM 不再只是“说话”,而是开始“看文件、调用工具、运行命令、修改代码、生成结果”。
4. Skills 是把经验沉淀为可复用能力
Skills 可以理解为“给 AI 使用的专门说明、脚本、模板和资源”。
如果 Tool Calling 解决的是“模型如何调用一个工具”,Agent 解决的是“模型如何围绕目标持续行动”,那么 Skills 解决的是“如何让 AI 在某一类任务上长期复用一套成熟流程”。
例如:
- 写简历可以有一个 resume skill;
- 做 PPT 可以有一个 slides skill;
- 处理 Excel 可以有一个 spreadsheet skill;
- 润色 MDX 文章可以有一个 content editing skill;
- 整理网页资料可以有一个 research skill;
- 分析命理案例、生成结构化报告,也可以沉淀为自己的专用 skill。
一个好 Skill 不一定复杂,但必须足够具体。它应该解决一类明确任务,而不是把所有东西都塞进一个万能说明里。
二、第一阶段:学习 LLM 基础
第一阶段的目标,不是成为模型训练专家,而是建立对大语言模型的基础认知。
你至少要知道:模型不是数据库,生成答案不是查表;上下文窗口不是长期记忆;token 不是普通字符;模型输出不是天然可靠结论,而是基于概率生成的文本。
1. 推荐资料:Happy-LLM
Happy-LLM 是 Datawhale 开源的系统性 LLM 学习教程,适合中文读者入门。它从 NLP 基础开始,逐步讲到 LLM 架构、训练过程、主流框架和应用方向。
它的优点是中文资料完整,路径比较清楚,不会一开始就把初学者扔进论文和英文文档里。
适合重点学习:
- NLP 和 Transformer 基础;
- LLM 的架构与训练过程;
- tokenizer、embedding、attention 等核心概念;
- 微调、RAG、Agent 等应用方向;
- 从理论理解过渡到代码实践。
如果你是初学者,可以先不追求全部看完,而是先建立整体框架。第一遍看懂 60% 就够了,后面做项目时再回头查。
2. 推荐资料:minGPT
minGPT 是 Andrej Karpathy 写的极简 GPT 实现项目。它不是为了工程性能,而是为了让学习者看懂 GPT 的核心结构。
相比大型框架,minGPT 的代码更短、更干净,适合用来理解 Transformer、attention、训练循环和文本生成的基本过程。
适合重点学习:
- GPT 的最小实现;
- Transformer block 的代码结构;
- token 输入如何变成下一个 token 的概率分布;
- 训练循环和推理生成过程;
- 模型不是魔法,而是一套可以拆开的计算结构。
如果你已经学过一点 Python 和 PyTorch,minGPT 很值得看。你不一定要完全复现训练,但至少要知道 GPT 的核心代码长什么样。
3. 这一阶段的练习任务
这一阶段不要只收藏资料,可以做几个小练习:
- 用自己的话解释什么是 token;
- 画一张 Transformer 的简化流程图;
- 跑通一个最小文本生成 demo;
- 修改一次 temperature,观察输出变化;
- 比较同一个问题在短上下文和长上下文中的表现;
- 整理一篇笔记:为什么 LLM 会产生幻觉。
学 AI 最怕只看概念,不动手。哪怕只是跑一个小 demo,也比连续收藏十个教程更有用。
三、第二阶段:学习模型应用与工程调用
理解 LLM 基础之后,第二阶段要学习如何把模型接入真实任务。
这里的重点不是“训练模型”,而是“使用模型”。对大多数普通开发者、内容创作者和独立站作者来说,真正有用的是:如何调用模型、约束输出、接入工具、处理文件、完成业务流程。
1. 推荐资料:Hugging Face Transformers
Hugging Face Transformers 是非常常用的开源模型库,覆盖文本生成、文本分类、问答、翻译、语音、视觉等大量模型。它适合学习如何加载模型、使用 tokenizer、调用 pipeline,以及把开源模型接入自己的项目。
适合重点学习:
- tokenizer 与模型加载;
- pipeline 快速推理;
- 本地模型运行;
- 模型输入输出格式;
- 微调与部署的基础概念。
Hugging Face 官方文档中,pipeline 被设计成一种比较简单的推理接口,适合初学者快速完成文本分类、问答、摘要等任务。tokenizer 文档也值得看,因为很多上下文长度、成本估算和截断问题,本质上都和 token 处理有关。
2. 先学会 API,再谈 Agent
很多人一上来就想做全能 Agent,但连最基础的 API 调用、消息格式、结构化输出都没有搞清楚。这样很容易变成“看起来很复杂,实际很脆弱”的玩具项目。
这一阶段至少要掌握:
- 如何发送一条模型请求;
- 如何设置 system、user、assistant 消息;
- 如何让模型输出 JSON;
- 如何处理模型输出不符合格式的问题;
- 如何计算 token 成本;
- 如何保存对话历史;
- 如何在长文本任务中做分段、摘要和合并。
这些东西很基础,但非常关键。Agent 的本质不是玄学,它依然建立在一次次模型调用之上。
3. 这一阶段的练习任务
可以做几个很实用的小项目:
- 写一个文章摘要器;
- 写一个 Markdown 标题生成器;
- 写一个网页内容结构化提取器;
- 写一个把岗位 JD 转成简历优化建议的小工具;
- 写一个把长文章拆分、总结、合并的脚本;
- 写一个简单的成本统计器,记录每次调用消耗了多少 token。
这些项目不炫技,但非常实用。做完这些,再去看 Agent,你会更容易理解为什么上下文、状态、工具和结构化输出这么重要。
四、第三阶段:学习 AI Agent
当你会调用模型之后,就可以进入 Agent 阶段。
Agent 的难点不在于“让模型说得更聪明”,而在于让模型稳定地完成任务。它要知道什么时候调用工具,什么时候读取文件,什么时候继续,什么时候停止,什么时候向用户确认,什么时候承认失败。
1. 推荐资料:Hello-Agents
Hello-Agents 是 Datawhale 开源的智能体学习教程,目标是帮助学习者从零开始理解并构建 AI Agent。它强调 Agent 的核心原理、架构范式和动手实现,而不是只教你使用现成平台。
适合重点学习:
- Agent 的基本概念;
- 工具调用与任务执行;
- ReAct 思维与行动循环;
- 记忆与上下文管理;
- 多智能体协作;
- 从 demo 到应用系统的构建路径。
如果你想真正理解 Agent,而不是只会拖拽几个节点,这类教程比单纯使用平台更有价值。
2. 推荐资料:OpenAI Agents SDK
OpenAI Agents SDK 是 OpenAI 提供的 Agent 开发框架,适合学习如何用更工程化的方式组织 Agent、工具、handoff、guardrails、tracing 和结构化输出。
其中几个概念非常重要:
- handoffs:让一个 Agent 把任务交给另一个更专门的 Agent;
- guardrails:给输入、输出或工具调用增加安全与格式约束;
- tracing:记录模型调用、工具调用、handoff 和其他执行事件,方便调试和观察;
- structured output:让模型输出更稳定的数据结构。
这类框架的意义,不是让你少写几行代码,而是让 Agent 的执行过程更容易调试、维护和扩展。
3. 推荐资料:LangGraph
LangGraph 是 LangChain 生态中的 Agent 编排框架,适合构建有状态、可循环、可分支的复杂 Agent 工作流。它把 Agent 执行过程抽象成图结构,适合处理多步骤任务、长期状态、人工介入和复杂自动化流程。
适合重点学习:
- graph-based workflow;
- state management;
- node 与 edge;
- 循环、条件分支与中断恢复;
- 多 Agent 协作流程。
如果说简单 Agent 是一个循环,那么 LangGraph 更适合把复杂任务拆成多个节点:搜索、读取、分析、写作、检查、修改、输出。每个节点负责一件事,状态在节点之间传递。
4. Agent 学习时最容易踩的坑
学习 Agent 时,最容易犯几个错误:
- 一上来就做全能 Agent;
- 不记录工具调用结果;
- 不做错误处理;
- 不限制工具权限;
- 不设计停止条件;
- 不管理上下文长度;
- 不区分规划、执行和检查;
- 不做日志和 tracing;
- 把 prompt 写得很长,却没有结构化流程。
真正有用的 Agent,通常不是“什么都能干”,而是“在一个明确任务范围内稳定完成工作”。
5. 这一阶段的练习任务
建议从小 Agent 开始:
- 文件整理 Agent:读取文件名,按规则分类;
- 网页总结 Agent:搜索资料,整理要点,输出摘要;
- 代码检查 Agent:读取一个文件,找出明显问题;
- 简历优化 Agent:读取 JD 和简历,输出修改建议;
- 文章编辑 Agent:按固定规则润色 MDX 文章;
- 资料研究 Agent:搜索、摘取、归纳、生成参考来源。
每个 Agent 都应该明确输入、输出、工具、限制和停止条件。不要一开始就追求多 Agent 协作,先把单 Agent 的基本循环跑稳。
五、第四阶段:学习 Skills 和工作流沉淀
当你已经能做一些小 Agent,就会发现一个问题:很多任务其实会反复出现。
例如你每次写文章,都要检查 frontmatter、标题层级、SEO 描述、参考链接、正文格式;每次处理简历,都要检查岗位匹配、项目表达、关键词、量化结果;每次处理表格,都要检查字段、格式、统计口径和输出模板。
这些重复经验,如果每次都靠临时 prompt 描述,就会很累。Skills 的价值就在这里:把一类任务沉淀成固定能力,让 AI 下次遇到相似任务时自动使用更成熟的流程。
1. 推荐资料:Anthropic Skills
Anthropic 官方公开了 Agent Skills 相关资料和示例。公开资料显示,Skills 通常以文件夹形式组织,可以包含说明文档、脚本、模板和其他资源,让 Claude 在特定任务中加载相关能力。
Anthropic 对 Skills 的解释重点在于:Skills 不只是提示词,而是可以包含 instructions、代码和资源的能力包。它适合让 AI 在文档处理、数据分析、品牌规范、专业工作流等任务上表现得更稳定。
适合重点学习:
- Skill 如何被触发;
SKILL.md或 instructions 应该怎么写;- 如何写清楚适用场景;
- 如何把脚本、模板、参考资料放进 Skill;
- 如何避免 Skill 过大、过泛;
- 如何处理安全和权限问题。
2. 推荐资料:awesome-skills-cn
awesome-skills-cn 是一个中文 Skills 资源整理项目,收集和整理了与 Claude Skills、OpenClaw Skills、通用 Agent Skills 相关的内容。
它适合用来观察别人如何设计 Skill:目录怎么放、说明怎么写、任务边界怎么定义、脚本和模板怎么组织。
但不要只收藏。真正有效的学习方式,是参考别人的结构,然后给自己的真实任务写一个 Skill。
3. 一个好 Skill 应该长什么样
一个好的 Skill 通常应该包含:
- 明确的适用场景:什么时候使用它;
- 明确的输入:用户需要提供什么;
- 明确的输出:最终应该生成什么;
- 稳定的步骤:先做什么,再做什么;
- 格式要求:标题、表格、JSON、Markdown、文件命名等;
- 约束条件:不能做什么,哪些信息必须保留;
- 示例:给 AI 一个参考样板;
- 必要脚本:把重复、确定性的工作交给代码。
Skill 最忌讳写成“万能工作流”。越万能,越容易失控。一个真正好用的 Skill,通常是小而专。
4. 这一阶段的练习任务
可以从自己的真实工作流里选一个任务:
- MDX 文章润色 Skill;
- 简历优化 Skill;
- SEO 标题生成 Skill;
- 网页资料整理 Skill;
- Excel 数据清洗 Skill;
- 项目 README 生成 Skill;
- 命理案例结构化报告 Skill;
- 求职邮件撰写 Skill。
建议先写一个最小版本,只解决一个明确问题。等它跑顺以后,再逐步增加模板、脚本和检查规则。
六、推荐学习顺序
如果你是初学者,可以按下面的顺序走。
1. 第一周:建立 LLM 地图
先用 Happy-LLM 建立整体认知,重点看 NLP、Transformer、token、训练和推理这些基础内容。
不要试图第一周就把所有细节吃透。第一周的目标是知道整个领域有哪些模块,以及它们之间是什么关系。
2. 第二周:看一个最小 GPT 实现
用 minGPT 观察 GPT 的核心结构。重点不是背代码,而是理解:输入如何变成 embedding,attention 大致做了什么,模型如何输出下一个 token 的概率。
如果看不懂全部代码,也没关系。先看整体结构,再逐步补 PyTorch 基础。
3. 第三周:练习模型调用
用 Hugging Face Transformers 或模型 API 做几个小任务,例如摘要、分类、翻译、信息抽取、标题生成。
这一周要重点理解输入输出、token、上下文长度、结构化输出和错误处理。
4. 第四周:学习 Agent 基本循环
用 Hello-Agents 理解 Agent 的任务执行流程。重点看工具调用、观察结果、继续决策、停止条件。
这时可以自己写一个最小 Agent:让它读取一个文本文件,总结内容,再生成一个 Markdown 输出。
5. 第五周:学习工程化 Agent 框架
学习 OpenAI Agents SDK 或 LangGraph。前者适合理解 Agent、工具、handoff、guardrails、tracing 这些工程概念;后者适合理解状态机、图结构、多步骤任务编排。
不要两个框架同时深挖。先选一个跑通,再看另一个。
6. 第六周:把重复任务写成 Skill
选择一个你经常做的任务,把流程写成 Skill。比如把“MDX 文章润色规则”沉淀成一个固定说明:frontmatter 怎么写、标题怎么编号、正文怎么排版、参考来源怎么放。
这一步会让你真正理解:AI 能力不是只靠临时聊天,而是可以被组织、复用和标准化。
七、我个人更推荐的入门组合
如果只选几个项目开始,我会推荐下面这个组合:
| 阶段 | 推荐项目 | 学习目标 |
|---|---|---|
| LLM 基础 | Happy-LLM | 建立大语言模型整体知识框架 |
| LLM 源码 | minGPT | 看懂 GPT 的最小实现 |
| 模型应用 | Hugging Face Transformers | 学会加载模型、运行推理、理解 tokenizer |
| Agent 入门 | Hello-Agents | 理解智能体的基本循环与工具调用 |
| Agent 工程 | OpenAI Agents SDK | 学习 handoff、guardrails、tracing 与结构化输出 |
| Agent 编排 | LangGraph | 学习状态管理、多节点流程与复杂任务编排 |
| Skills | Anthropic Skills / awesome-skills-cn | 把重复任务沉淀为可复用能力 |
如果你完全没有基础,可以先按 Happy-LLM → Hugging Face Transformers → Hello-Agents 的顺序走。等你有一点代码和 API 经验后,再补 minGPT、OpenAI Agents SDK、LangGraph 和 Skills。
八、不要把学习路线走偏
最后讲几个现实判断。
1. 普通人没必要一开始训练自己的大模型
训练模型当然重要,但对大多数学习者来说,最先应该掌握的是调用、组合和工程化应用。你真正能马上用起来的能力,是把大模型接入自己的工作流,而不是一开始就幻想训练一个属于自己的 ChatGPT。
2. 不要沉迷玩具项目
AI 时代有很多看起来很酷的 demo:自动写书、自动赚钱、全自动公司、全能 Agent。它们有些有启发,但很多并不稳定,也不适合普通人投入太多时间。
判断一个项目值不值得学,可以看三点:
- 是否能解释核心原理;
- 是否能跑通真实任务;
- 是否能迁移到你的工作流里。
如果一个项目只能截图装酷,不能沉淀能力,就不值得花太多时间。
3. 最重要的是形成自己的工作流
真正有价值的 AI 学习,不是收藏多少模型榜单,也不是记住多少新名词,而是逐步形成自己的工作流。
比如:
- 写文章时,AI 帮你查资料、整理结构、润色表达;
- 学编程时,AI 帮你解释代码、生成测试、修复 bug;
- 做网站时,AI 帮你写组件、检查 SEO、整理内容;
- 求职时,AI 帮你分析 JD、优化简历、准备面试;
- 做研究时,AI 帮你搜集资料、归纳观点、生成引用清单。
当这些流程稳定下来,你就不只是“会用 AI”,而是在建立自己的 AI 工作系统。
九、结语:从使用者到构建者
这条学习路线的核心,可以总结为一句话:
先理解模型,再调用模型;先做简单工具,再做 Agent;先跑通任务,再沉淀 Skills。
不要急着追所有新概念。AI 领域变化很快,但底层能力链其实很清楚:理解 LLM、会用 API、会做工具调用、会管理上下文、会设计工作流、会把经验沉淀成 Skill。
沿着这条路线走,你会从单纯的 AI 使用者,逐步变成 AI 应用构建者。
参考来源
- Datawhale Happy-LLM:从零开始构建大模型
- Andrej Karpathy minGPT:极简 GPT 实现
- Hugging Face Transformers Quickstart
- Hugging Face Transformers Pipeline 文档
- Hugging Face Transformers Tokenizer 文档
- Datawhale Hello-Agents:从零开始构建智能体
- OpenAI Agents SDK:Handoffs
- OpenAI Agents SDK:Guardrails
- OpenAI Agents SDK:Tracing
- LangGraph GitHub:Build resilient agents
- LangGraph 官方介绍
- Anthropic:Equipping agents for the real world with Agent Skills
- Anthropic Skills GitHub
- Claude Agent Skills 官方课程
- Agent Skills Overview
- awesome-skills-cn:中文 Skills 资源整理
Share
评论