技术栈
cs336 中文课程
念谨
4 小时前
语言模型
·
datawhale
·
组队学习
·
cs336 中文课程
【Diy-LLM】Task 1 分词器笔记
学习资料很多人觉得分词器是大模型的一部分,其实它有自己的训练流程。简单说:先拿正则把原始文本整理一下,再统计出一套词表,把文字片段和数字ID对应起来。 这个对应方式决定了模型看到的是字、词,还是更碎的片段。直接影响后面模型学得好不好。
我是有底线的