Application Development using Large Language Models笔记

诸神缄默不语-个人CSDN博文目录

这是2023年NeurIPS Andrew Ng和Isa Fulford做的tutorial,关于如何用LLM来开发新产品的技术和思路:NeurIPS Tutorial Application Development using Large Language Models

文章目录

  • [1. LLM基础](#1. LLM基础)
  • [2. 提示工程技巧](#2. 提示工程技巧)
  • [3. 微调](#3. 微调)
  • [4. AI创业和其他应用思路](#4. AI创业和其他应用思路)

1. LLM基础

LLM base的思路是"预测下一个token",LLM聊天模型的思路是对齐instructuion(指令),也就是用问答对来继续预训练LLM。这样能让LLM有回答问题 / 遵从指令的能力。

RLHF,对齐人类需求:人工对LLM回答结果打分(实现是比较哪个回答更好),学习人工打分的reward model

2. 提示工程技巧

  1. 加reference
  2. 重复问,用类似模型聚合的方式
  3. 分解任务:分类query
  4. moderation API:检测安全性
  5. 防止prompt injection:
    1. 将用户输入从prompt中分隔出来

      2. 多问一次,有没有prompt injection
  6. 用户给出的例子、低资源语言prompt、代码、"奶奶讲故事"可能会绕过安全限制

3. 微调

  1. 也许只需要200-500个样本

4. AI创业和其他应用思路

  1. 分解人类的实际工作内容,根据技术的可获得性判断AI在哪一步可能有用
  2. 及时监控LLM输出
  3. 评估LLM的表现:制作测试集和评估指标
  4. 用LM评估指标:这一点我记得另外有一篇paper说LLM更倾向于同一LLM生成的结果来着,忘了具体是哪篇了,下次找找
  5. 这玩意仍然难以debug(我对此深有感触)
  6. 定义specific and narrow use case,明确评估指标、成功的标准,评估风险
  7. 用LLM让工作流程更简单、更便宜
  8. LLM基座模型可能会自己变好(什么,AI界自己的摩尔定律)
  9. personalized LLM可能需要LLM在每一层都努力,pretraining阶段就需要考虑文化差异,RLHF阶段有personalized RLHF、group wise RLHF、不同的甚至冲突的preference
  10. LLM的置信度:简单方案是直接问LLM你的confidence是多少;更好的方法是抽样多条回答,检查其一致性
  11. 闭源模型效果好但不好调,还想要长记忆,还想要用户能够实时反馈并得以调整:Andrew的建议是模仿人类的思路一步一步来,这样也方便做错误分析
相关推荐
Promise微笑9 小时前
绝缘油介损(油介损)测试仪的深层机理、技术演进与精准诊断策略
大数据·网络·人工智能
智者知已应修善业9 小时前
【51单片机8位数码管同时倒计时从9999】2024-1-25
c++·经验分享·笔记·算法·51单片机
开发者小布9 小时前
Claude Code 国内配置完整指南:通过中转 API 实现稳定访问(macOS / Linux / Windows)
人工智能
大C聊AI9 小时前
通用大模型纷纷收费,垂直场景AI工具的价值正在被重估
大数据·人工智能·机器学习·办公效率·ai 工具·智标领航·ai 辅助办公
苏州邦恩精密9 小时前
2026江苏GOM三维扫描仪定制厂家找哪家?企业数字化转型视角
人工智能·机器学习·3d·自动化·制造
python-码博士9 小时前
PyTorch 从零实现 Flow Matching:训练、采样、画图一条龙
人工智能·pytorch·python
AOwhisky9 小时前
Redis 学习笔记(第四期):高可用与集群(哨兵 + Cluster + 容器化)
linux·运维·数据库·redis·笔记·学习·缓存
砍光二叉树9 小时前
一文打通 AI 认知:LLM、Agent、MCP、Skill 完整体系
人工智能·llm·agent·skill·mcp
努力写A题的小菜鸡9 小时前
PyTorch 图像预处理 transforms 与 TensorBoard 可视化 (自己学习记录)
人工智能·pytorch·学习
测试仪器廖生135902563859 小时前
罗德与施瓦茨 FSP13频谱分析仪FSP30
网络·人工智能·算法