
专栏导读:你将交付什么、如何学、如何做作品集
-
- [1. 你将交付什么:不是"学完",而是"交付出手"](#1. 你将交付什么:不是“学完”,而是“交付出手”)
-
- [交付物 A:一套"工程化项目骨架"(可直接复用)](#交付物 A:一套“工程化项目骨架”(可直接复用))
- [交付物 B:一套"数据工程模板"(ETL 可复制)](#交付物 B:一套“数据工程模板”(ETL 可复制))
- [交付物 C:一套"自动化工具箱"(CLI 可发布)](#交付物 C:一套“自动化工具箱”(CLI 可发布))
- [交付物 D:一个"作品集级 RAG Demo"(含评估闭环)](#交付物 D:一个“作品集级 RAG Demo”(含评估闭环))
- [2. 如何学:学习协议(按模块推进,不走弯路)](#2. 如何学:学习协议(按模块推进,不走弯路))
-
- [学习协议 1:先工程化,再谈效率](#学习协议 1:先工程化,再谈效率)
- [学习协议 2:每篇都要"落盘"](#学习协议 2:每篇都要“落盘”)
- [学习协议 3:Notebook 只做编排,逻辑下沉 `src/`](#学习协议 3:Notebook 只做编排,逻辑下沉
src/) - [学习协议 4:每个模块结束做一个"最小作品"](#学习协议 4:每个模块结束做一个“最小作品”)
- [学习协议 5:遇到问题先定位"哪个能力缺口"](#学习协议 5:遇到问题先定位“哪个能力缺口”)
- [3. 如何做作品集:三层作品集路线(最实用)](#3. 如何做作品集:三层作品集路线(最实用))
-
- [作品集层 1:工程化项目模板(展示你会做"结构")](#作品集层 1:工程化项目模板(展示你会做“结构”))
- [作品集层 2:自动化工具箱(展示你会做"工具")](#作品集层 2:自动化工具箱(展示你会做“工具”))
- [作品集层 3:RAG Demo(展示你会做"AI 工程闭环")](#作品集层 3:RAG Demo(展示你会做“AI 工程闭环”))
- 最后:这套专栏适合谁,以及你该怎么开始
- [下一章:[《从脚本到工程:进阶学习的 5 个方法论(可维护性/可复现/可评估/可扩展/可交付)》](https://hai-tang-ai.blog.csdn.net/article/details/156736522)](#下一章:《从脚本到工程:进阶学习的 5 个方法论(可维护性/可复现/可评估/可扩展/可交付)》)
限时免费两周,之后9.9元
如果你点开这套专栏,是因为你已经意识到一件事:
Python 的"语法熟练"并不会自动转化成"能做项目"。
你可能已经能写脚本、能用 Pandas、能在 Notebook 里跑通一段流程,但一到真实任务就会卡住:
- 环境一换就跑不通
- 数据一变就崩
- 结果做出来却说不清、交不出去
- 想做 AI 工程(RAG/知识库)却不知道从哪里"工程化落地"
所以这套付费专栏的目标很明确:
不再增加你背诵的语法点,而是把你训练成能交付成果的人。
你最终拿到的,是一套可复用的工程化模板 + 作品集级项目产物。
下面我用三部分讲清楚:
- 你会交付什么(拿得走的成果清单)
- 怎么学(按模块推进的学习协议)
- 怎么做作品集(从脚本到工具到 AI Demo 的路径)
1. 你将交付什么:不是"学完",而是"交付出手"
这套专栏的交付物分三层:工程地基 → 数据流水线 → AI 工程 Demo。每一层都能独立成为你简历/作品集的一项成果。
交付物 A:一套"工程化项目骨架"(可直接复用)
你会拥有一个标准项目结构,并理解每个目录为什么存在、怎么用:
src/:核心逻辑(可维护、可测试、可复用)configs/:配置(可迁移、可复现)data/:数据分层(raw/processed,中间产物可追溯)tests/:最小测试体系(防回归、防"自己坑自己")runs/:每次实验的参数、指标、模型、图表、日志(可追溯)reports/:报告与导出产物(可交付、可汇报)
这意味着:从此你的项目不再是"一个 Notebook + 一堆脚本",而是可以长期维护的资产。
交付物 B:一套"数据工程模板"(ETL 可复制)
你会做出一个可复用的 ETL 管道,支持多源导入、清洗审计、质量评估、模板化输出:
- CSV/JSON/Excel 多源导入规范
- 缺失/异常/重复处理模板 + 审计日志
- 文本清洗流水线(规则化、可复现)
- 数据质量评估:你清洗后的数据到底好不好
- 百万级数据处理的性能策略(内存、分块、类型压缩)
这不是"讲讲 Pandas",而是把数据处理变成可持续的流水线。
交付物 C:一套"自动化工具箱"(CLI 可发布)
你会把脚本升级为工具:可参数化、可批处理、可一键运行、可自诊断报错。
argparse做 CLI- Makefile/脚本化任务编排
- 常见报错自诊断(把坑固化成提示)
- 最终形成一个"自动化数据处理工具箱"
这类产物非常适合放进作品集:别人一看就知道你不是只会写 Notebook。
交付物 D:一个"作品集级 RAG Demo"(含评估闭环)
最后你会把前面所有工程能力汇总到一个完整的 AI 工程项目:
- embedding 与向量化
- 文档切分与元数据设计(影响检索效果的关键)
- 向量库:召回、过滤、索引(工程视角)
- 检索与重排:从"能搜到"到"搜得准"
- 评估体系:指标 + 人工评审 + 迭代节奏
- 交付一个可展示的 RAG Demo(可作为作品集)
注意:我不会只教你"跑通",而是让你具备评估与迭代能力,这是 AI 工程真正的门槛。
2. 如何学:学习协议(按模块推进,不走弯路)
这套专栏文章很多,但学习方式很简单:
按模块走,不跳着刷。每一模块结束要产出一个可提交的成果。
学习协议 1:先工程化,再谈效率
你必须先把环境、目录结构、配置、日志、调试、测试打牢(M1--M2)。
因为后面所有内容都要靠这套地基来沉淀资产。
如果你跳过这部分,你后面学得越快,未来返工越多。
学习协议 2:每篇都要"落盘"
我会反复强调 runs/ 与输出规范。
你要养成习惯:每次实验都留下参数、指标、图表、日志。
这不是形式主义,这是你能否复现、能否交付的根本。
学习协议 3:Notebook 只做编排,逻辑下沉 src/
Notebook 很适合探索,但它不是长期维护的载体。
从第二模块开始,你会逐步把核心逻辑抽成模块和包,让项目具备"可维护性"。
学习协议 4:每个模块结束做一个"最小作品"
这套专栏不是看完就结束,而是每个阶段都有明确产出:
- M1--M2:可复现项目骨架 + 最小测试 + 日志体系
- M4--M5:ETL 管道 + CLI 工具箱
- M6--M7:百万级数据模板 + 一键周报/月报
- M8:RAG Demo + 评估闭环
你会发现:作品集不是"最后才做",而是每周都在积累。
学习协议 5:遇到问题先定位"哪个能力缺口"
你在项目里卡住时,不要本能去搜语法。
先问自己:是环境、路径、配置、日志、评估、还是数据契约的问题?
你能定位缺口,就能快速补齐。
3. 如何做作品集:三层作品集路线(最实用)
很多人做作品集只会堆 Notebook 截图,这是低效的。
我更推荐你做"可运行、可复现、可验收"的作品集。
作品集层 1:工程化项目模板(展示你会做"结构")
你只要把骨架做出来,并写一份 README 说明:
- 如何创建环境
- 如何运行(CLI)
- 输出在哪里(runs/reports)
- 如何复现(固定数据版本与参数)
这一层就能拉开差距,因为大多数人没有工程结构。
作品集层 2:自动化工具箱(展示你会做"工具")
把你写过的"数据处理脚本"封装成 CLI:
clean --input ... --output ...profile --file ...report --range last_month
别人只要运行几条命令就能看到效果,这比任何截图更有说服力。
作品集层 3:RAG Demo(展示你会做"AI 工程闭环")
真正的亮点在于:
你不仅做出一个"能问答"的 Demo,还能说明:
- 为什么这样切分
- 为什么这样做 metadata
- 召回效果怎么评估
- 迭代策略是什么
能讲评估闭环的人,在 AI 项目里才是"可用的人"。
最后:这套专栏适合谁,以及你该怎么开始
如果你希望从"会写 Python"走到"能交付项目成果",这套专栏是为你设计的。
你会用一套固定的工程化方法,把每篇内容沉淀成可复用模板,最终形成一个可展示的作品集。
开始方式:
- 从 M1 开始,把环境与项目骨架搭好
- 立刻建立
runs/输出规范与 README - 每学完一个模块,就做一个可运行的"最小作品"
如果你愿意,我建议你在评论区只回答两个问题(越具体越好):
- 你当前最常做的数据类型是什么(表格/文本/日志/文献/爬虫数据等)
- 你最想做的作品集方向是什么(数据分析、ETL 工具、RAG 知识库、报告自动化等)
我可以据此给你一条"最短作品集路线":用本专栏的模块顺序,帮你把产出安排到每一周,避免你学完仍然不知道拿什么去展示。