Advanced Technologies: Beyond Prompting- Pretrainiong an LLM

When should you pretrain an LLM?

Many teams are pretraining general-purpose LLMs by learning from internet text.

  • May take $10s of millions, many months, huge amount of data;

For building a specific application:

  • Option of last resort;(given the time and expense of pre-training a model from scratch)
  • Could help if have a highly specialized domain; (have a highly specialized domain and a lot of data)

unless you have a huge amount of resources and a huge amout of data, it may be more parctical to start with an LLM that someone else had pre-trained, say a general purpose LLM that's learned from a lot of Internet data and that someone has open-source, and then to fine-tune that to your own data

相关推荐
道可云2 小时前
5A景区智慧导览服务:从评审标准到技术实践——解析“道可云”智能导览系统如何以“VR+轻量化”重塑文旅体验
人工智能·旅游
科技大视界2 小时前
2026年6月AI电商智能体推荐指南:AI电商视频生成、卖点提取
人工智能
米小虾3 小时前
Loop Engineering 深度实践指南:9 种 2026 年最新做法与完整代码
人工智能·agent
aaaa954726653 小时前
从Claude Code到平替:我的vibe coding迭代体验
人工智能
叫我:松哥3 小时前
基于机器学习的中文文本抑郁症风险检测系统,包括NLP与传统机器学习的抑郁症识别,准确率92%
人工智能·深度学习·机器学习·自然语言处理·flask·nlp·bootstrap
天天讯通3 小时前
OKCC 呼叫中心安全性能全解析:技术防护与管理措施指南
大数据·开发语言·网络·人工智能·安全·语音识别
hai3152475433 小时前
九章编程法 · 猜数字游戏 (GW-BASIC 重构版) *
人工智能·microsoft·游戏引擎·游戏程序
邵宇然3 小时前
跨沙箱动态传递:WASM 与宿主环境间变长文本数据的零拷贝读取
人工智能
小小小花儿3 小时前
如何使用Codex进行Vibe Coding
人工智能
信也科技布道师3 小时前
Agent Skills + Vibe Testing:构建人机协作的测试闭环
人工智能·agent skills