我的AI学习小结：从入门到放弃

1997年5月，"深蓝"首次击败了人类国际象棋冠军，我笑了笑，因为我不懂；

2016年3月，阿尔法狗首次战胜了人类围棋世界冠军，我又笑了笑，因为我不喜欢；

2022年8月，Stable Diffusion模型开源点燃了AI画图热潮，我还是笑了笑，然后默默的下单了块显卡；

同年11月，ChatGPT横空出世，彻底引爆了全球AI热情。我没笑，而是直接发出了含C量很高的赞叹；

今年春节，DeepSeek出圈，全民谈论AI，我笑不出来了，因为我知道这次是真的来活了。

从下棋到画画，再到聊天，再到日常生活和工作，AI与我们是越来越近，越来越紧密了。

==========================================

虽然为了体验AI应用而买了块显卡是我近几年来花的最值的一笔消费，但没有GPU不代表不能学习AI。一些所谓的"弱AI"，比如图片识别、图片分类、OCR、语音识别、图片抠图等等完全可以只通过CPU来入门；有些项目用GPU可以明显提高效率，但真没有也不是不行，比如图片超分；还有些项目出于实用性考虑，比如文生图，则必需要GPU。否则出图消耗的时间量级可能就是二三十秒 vs 二三十分钟。再深入学习到自行Lora微调大模型，几乎是必定要上GPU了，否则框架和工具都不一定能跑起来。

至于云算力，因为工作性质个人并不考虑，学习的重点还都是本地部署。

============================================

以下是曾经做过的无GPU入门体验，不过有些时间有些久了，不保证现在还能跑通：
●【图片分类】
树莓派4B：跑通Paddle-Lite-Demo-CSDN博客https://blog.csdn.net/ki1381/article/details/129430906?spm=1001.2014.3001.5501●【图片分类训练】
C# + .Net6 实现TensorFlow图片分类_c# tensorflow搭建图像分类模型-CSDN博客https://blog.csdn.net/ki1381/article/details/130609780?spm=1001.2014.3001.5501●【图片抠图及超分】
尝试使用PaddleHub实现批量人像AI抠图以及超分_paddlepaddle 抠图-CSDN博客https://blog.csdn.net/ki1381/article/details/130835838?spm=1001.2014.3001.5501●【OCR】

1、安装：python -m pip install paddleocr

2、CLI：paddleocr ocr -i 输入文件（图片或PDF） --lang ch

●【语音识别】

我用的是SenseVoice，国内镜像地址：SenseVoice:Multilingual Voice Understanding Model - AtomGit | GitCode

可能需要额外再下载ffmpeg，并把可执行文件所在路径加入环境变量。

●【LLM】
https://blog.csdn.net/ki1381/article/details/146707085?spm=1001.2014.3001.5501https://blog.csdn.net/ki1381/article/details/146707085?spm=1001.2014.3001.5501============================================

其实我还挺喜欢画画的。刚毕业的时候临摹了张《橙路》里的阿圆贴在了工位前，被当时的部门领导看见了还开玩笑，"画的不错，可惜画饼充饥"。所以22年底开始接触sd-webui，秋叶大神一键包。再后来ComfyUI渐成主流，于是果断投入ComfyUI阵营。ComfyUI 也有官方桌面版了，推荐。下载 ComfyUI：功能最强大的开源节点式 AI 应用，完全本地运行，全面掌控控制你的图像、视频和 3D 生成https://www.comfy.org/zh-cn/download

sd-webui是面板式菜单操作，ComfyUI是工作流式操作，各有千秋。ComfyUI的特点是各节点间的输入输出关系一目了然（当然你也可以形容为眼花缭乱），因此可以把模型加载、采样、后处理等等节点任意拼装、复用，调试通过后直接封装成"一键流"。

ComfyUI自带了很多主流模型的工作流模板，所以通常不用担心工作流的问题。

这几天在玩z-image-turbo模型，玩的不亦乐乎，因为它速度快且支持直接中文提示词。期待传说中的z-image-edit早日开源，再次体会一把"嘴炮P图"。上一次这么好玩的是Flux Kontext 和 qwen-image-edit。

============================================

自打DeepSeek发布之后，算是真正去了解了下LLM的应用。

首先接触的本地轻量级模型管理工具就是Ollama。它离线、零成本、轻量、兼容OpenAI的API。

AI会话工具也尝试了几种，各有特色：

◆ AnythingLLM：简洁、易用；

◆ Cherry Studio：功能强大，MCP支持较好；

◆ Open-WebUI + 浏览器：提供了Web方式访问方案。

装完这些工具之后，它们的RAG模块仿佛就化身了许愿池的王八：投硬币，听愿望。默认情况下RAG工作的似乎不太理想，需要尝试不同的嵌入模型、修改切块策略（如果支持）、调整chunk大小和文本块大小。折腾了很久效果不是很好，因此又尝试了RagFlow，效果好了很多。

Get started | RAGFlowhttps://ragflow.io/docs/git包地址：
https://github.com/infiniflow/ragflow.git

RagFlow安装部署依赖docker，有几个注意点：

1、/etc/docker/daemon.json 中添加国内镜像；

2、/etc/sysctl.conf 中，设置 vm.max_map_count 的值不小于262144；

3、下载最新 v2 插件：

bash 复制代码

mkdir -p ~/.docker/cli-plugins
curl -SL https://github.com/docker/compose/releases/latest/download/docker-compose-linux-x86_64 -o ~/.docker/cli-plugins/docker-compose

当然，当下最精准的许愿可能还是要靠MCP了。

◆ 本机上需要安装 Node.js 环境

◆ npm -g install 安装需要的 MCP

◆ 配置 MCP（json/UI）

◆ 对话时须点名该MCP

◆ 并非所有模型支持MCP

以一个mysql的mcp为例，在Cherry Studio中配置完成后长这个样子的（env的内容是服务器连接参数，请按实际来。另外配置的时候有UI界面可供选择，但我更喜欢直接贴json）：

经过几轮对话训练校准之后，可以达到这样的效果：

在我的工作环境中有潜在的调用API的需求，因此最最基本的功能还是要测试下：

https://blog.csdn.net/ki1381/article/details/146778859?spm=1001.2014.3001.5501https://blog.csdn.net/ki1381/article/details/146778859?spm=1001.2014.3001.5501

最后，LlamaFactory也简略的了解了一下。毕竟学习微调也是很现实的需要。

◆ 安装LlamaFactory：建议在python隔离环境。https://github.com/hiyouga/LLaMA-Factory.git
◆ 运行WebUI：llamafactory-cli webui
◆ 准备数据文件：alpaca/sharegpt 格式的json
◆ 注册数据集：修改 data/dataset_info.json
◆ 准备基模：可选择后在页面内下载
◆ 合并：......

============================================

学习AI最大的障碍大概就是网络了。主要的站点都经常会抽风。但合法的不翻墙替代方案也有。

1、pip install：加上 -i https://pypi.tuna.tsinghua.edu.cn/simple 参数

2、github / githubusercontent：

◆ 尝试替换网站名，改成 gitcode、gitee / gitmirror 等

◆ URL在线加速（注意安全风险）

◆ 换个时段下载（比如早上6-8点） / 多试几次 / ...

3、Huggingface：

◆ 国内镜像：hf-mirror.com

◆ 魔搭社区：modelscope.cn

4、其它：

◆ 国产下载软件/网盘。该说不说，某些国产软件口碑不咋地，但作为最后的手段，还是值得尝试一把的

◆ docker 仓库镜像

============================================

一家之言，仅供参考。