AI - 技术栈

不排除累了，或者怕被时代淘汰的恐惧衍生出来的厌弃，或者是目前对AI的营销氛围，其实大部分只是对openApi的封装，目的仅是获得风投；导致自己不愿去主动学习AI，但这是时代发展的前进趋势，目前希望自己能够平静下来，去学习一些基础知识

在AI模型中，tokens（令牌/词元）是文本处理的基本单位，用于将输入的文本拆分为模型可理解的片段

tokens 是什么？
- 定义：token是模型处理文本时的最小单位，可以是：
  - 单词（如hello作为一个token）
  - 子词（如"unhappy"拆分为"un"和"happy"两个tokens）
  - 标点/符号（如？或，各占1token）
  - 非拉丁字符（如中文通常一个汉字约等于 1-2个tokens，依赖编码方式）
- 示例：
  - 英文句子"Hello, world!"拆分为["Hello", ",", "world", "!"] → 4个tokens
  - 中文句子 "你好，世界！" → 可能拆分为 ["你", "好", "，", "世", "界", "！"] → 6个tokens
tokens与资源消耗的关系
- 计费依据：AI服务的费用通常按token量计算（输入+输出总和）。
  - 例如：100万tokens ≈ 可处理约70万英文单词或50万汉字（实际因文本复杂度而异）。
- 上下文限制：模型单次交互的token数有上限（如GPT-4通常支持128k tokens），超出需截断或分段处理。
如何优化token使用？
- 精简输入
- 限制输出长度
- 监控用量

以上三个术语是AI大模型开发与应用的核心环节，具体含义如下