GPT本地化研究(JAVA版本)

1.我觉得gpt3 600多G个人是不可能部署得成功的,回想我自己个人不可能每一方面知识都知道,我只是知道最多的是我自己擅长的,百事通需要靠大公司才能解决,我们只是要关注这个gpt是哪个领域的, 我想做的是工业--->自动化gpt(貌似这个方向日本很专业了*_*)

它山之石可以攻玉

2.gpt3变得有智慧的原理是什么?什么是有智慧?

大数据训练(但是大数据不一定就意味着是正确的,比如现在的媒体为了博眼球夸大事实,所以训练的数据一定要可靠,不然gpt的结果就是马后炮,世界上没有绝对的东西)
世界充满了比较,人和比自己强的人比较(自己LJ 有进步空间) 比自己稍微差的人(自己happy)

transform注意力模型,根据上下文推断你要大概问什么

逻辑推理 gpt他具有一定推理,如果更加专业需要使用图推理神经网络

fine-tuning 模型调优,如果遇到错误回答我可以对未来答案进行调整

3.怎么学习他并实现小型人工智能呢?

了解他--->使用他改进他---->实现他---> 改进他哈哈哈...

4.如果我想要实现他怎么办?

规划

1.强逻辑(仅仅靠一块大硬盘可不行) 就像考试我带本书(没有提前学过)和身经百战的训练的学霸(有自己学习的方法套路),带书的可能使用索引的方法遍历整本书,奈何老师出的题不是书上可以抄到的需要推理(物理考试数学考试)

现在的gpt就是语文老师,让他教数学比较难,需要用到数据结构来解决逻辑问题

2.它山之石可以攻玉,抖音其他国内大厂直接也是调用gpt接口训练自己的gpt

3.大力出奇迹,胆子要大步子要稳,实时训练,不知为不知,有些事情不知道反而更好,坚定理想信念(初心),不要训练这训练这变成统治人类的gpt

5.逻辑学

一对0
0对一
一对一
一对多
多对一
一对一或多
小明喜欢(动作)吃屎 1--->1/多
小明在湖里(地点)游泳(动作) 1---->1/多
坤坤,外面全是阿sir 1-->多
秦岭四周无人,小明进去看了一眼. 1---->0

时间关系缕清时间发生关系不得不说链表是无敌的什么逻辑结构都能表达

//只训练了正确的选项,错误的选项岂不是浪费了(建立错误的知识库)
//每个插入的记录,标志可能出现错误等待删除

以国考公务员2009真题研究人工智能

下列历史时间排序正确的一组是：A

A、齐桓公称霸→商鞅变法→秦统一天下

B、司马迁修《史记》→文景之治→王莽篡汉

C、玄武门之变→黄巢起义→安史之乱

D、杯酒释兵权→岳飞抗金→王安石变法

//如果我输入A选项来训练模型,先

//创建齐桓公(key) 生死三个成员,生就填入一个称霸(如果填入开始和结束太浪费空间了)

//齐桓公连接商鞅变法

//创建一个商鞅生那里插入变法,LLM可以提取关键字

//商鞅连接秦国统一(单链表)

//创建一个秦国生那里插入统一

2定义型(作用后果)

经济学上所推崇的"橄榄型"收入分配结构，是指低收入和高收入相对较少、中等收入占绝大多数的分配结

构。我国正在采取、实施"提低、扩中、调高、打非、保困"的方针，使收入分配朝着"橄榄型"方向发展。这主要是为了促进：

A、生产的发展

B、效率的提高

C、社会的公平

D、内需的扩大

链表不存实际数据,只存指向数据的指针

//改进,我只记录主语,使用短句来训练,长句直接使用主句训练的结果

//还是不行

//解决全部的问题,where when what why how

dart 复制代码

//没有说完的话是重点, 一个完整的句子是 由问题+答案组成的,如果有问题,没有答案, 重点在问题那一句话
//怎么判断话没有说完整,语法结构主谓宾缺少了宾语
从 2006 年元旦起我国政府正式取消了延续 2600 年的农业税。
我国农业税的征收始于：
A、春秋时期鲁国的初税亩
B、战国时期的商秧变法
C、秦朝的按亩纳税 
D、西汉的编户齐民
//主要的问题是你搜索了所有相关的都找不到农业税,还是需要提取问题的关键(注意力)才能解决问题:关键字是农业税 始于

//理解能力太拉胯了把

//总结是关键词的概率 sklearn

复制代码

from sklearn.feature_extraction.text import TfidfVectorizer

# 准备文本数据
documents = [
    "today is saturday,go  shopping,my mom and me ",
    "This document is the second document.",
    "And this is the third one.",
    "Is this the first document?"
]

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 将文本数据转换为TF-IDF特征矩阵
tfidf_matrix = vectorizer.fit_transform(documents)

# 获取关键字
feature_names = vectorizer.get_feature_names_out()

# 输出关键字及其对应的TF-IDF权重
for i, doc in enumerate(documents):
    print(f"Document {i + 1}:")
    for j, feature_index in enumerate(tfidf_matrix[i].indices):
        print(f"   {feature_names[feature_index]}: {tfidf_matrix[i, feature_index]}")

6.化繁为简化多为单一 (把多的关系放在存储的数据中),如果在中国能把中国的试卷的单题,多选题来训练模型,这是源源不断的训练数据,从小学到大学,我们都在做数据label的工作,训练图像识别也是这个道理,其实世界上也有很多这个应试模式,把他变成优势,现在流行的图片补全验证码也是这个原理(可以产生更多训练数据)

7.怎么生成自己的模型文件?而且搜索性能好呢?

8.文本人工智能,智能在可以替换近义词,反义词,把散装的单词变成完整的句子,

9.人工智能为什么是人工智能,从拼接Json串得到灵感,例如我说 gpt我想要json格式的数据 {"key":"value"},如果我说我想要key是name,value是小明, gpt开始拼接 "{'"+name+"':'"+value+"'}",如果我说我要拼接多个 "{'"+name+"':'"+value+"',"+'"+name+"':'"+value+"'}" 开头肯定是 "{'" 结尾肯定是 "'}"

中间多个连接肯定是"'," 键值之间肯定是name+ "':'"+value,那么怎么样通过少量的代码让机器拥有自主学习的能力呢?(自己有思想,普通人不可能什么都是万事通,遇到不会的东西就快速学习),在json例子拼接的过程,其实我们要摆脱用+号拼接的思维 {"xxxx":"xxx"} 通过大量学习机器会知道 json格式一定是{开始的,我用链表和 $%^来表达变化的部分,直接生成文本

//我有大大的疑问,那我想要生成多个键值呢,和人的学习习惯有关的是先从简单的开始-->复杂的

//假设他在学习过程中学习到这个2个键值的格式,增加了个逗号,但是我怎么确定多个键值对怎么生成

//答案是由于我对1个键值对和2个键值对做对比发现了可以重复使用的部分和不可重复的部分,系统判断可以使用循环进行复用

{"xxxx":"xxx"}

10.接下来解决的是怎么识别出一句话的关键词

//要设计上在线人工纠错,不然生成的答案可能不可预料(虽然逻辑是可通的)

//事实上关键词也可以是问题(where when what why how to do,)也可以是纯傻瓜式的问答

比如观音庙答案 : 观音庙是xxxxxxxxxxxx

为什么有观音庙观音庙是xxxxxxxxxxxx,起源于xxxxxxxxxxxxxx,

为什么观音庙被人们朝拜观音庙是 xxxxxxxxxxxxxxxx,被朝拜因为xxxxxxxxxxxx,所以xxxxxxxxxx

什么时候有观音庙观音庙是xxxxxxxxxxxxxxxx,起源于元朝xxxxxxxxxxxxxxxxxxx,秦朝xxxxxxxxx(问题来了多个时期有多个事件,需要封装为块)

//如果我的关键词识别器,识别不出关键词怎么办,直接说我无法根据你的话推理出什么,如果识别不出答案呢,就直接往是什么哪里插入(但是每一次的结果可能会覆盖之前的结果怎么办,关键词相同的几率还是比较小的,后期机器怎么学习也是个问题 $实时学习$ ,如果在系统中答案块的某个子模块相似度高得一批,那极有可能他们是同个问题的解,是不是可以通过合并关键词成为一个,然后通过关键词组织成为语言来解决后期学习的问题)(模拟大脑在睡觉过程中相似块的合并)(不过相似并不意味着就是相同的东西,有些东西只有细微的差别,比如原子和中子和小黑子 $坤坤$ 人也不能识别出来,词语使用领域不同代表意思不同娱乐圈和物理圈化学圈生物圈计算机圈机械圈单片机圈计算机网络圈中国圈美国圈荷兰圈韩国圈日本圈饭圈。。。这么多需要机器先了解是哪个圈的再去插入到圈的领域加快查询后期方案使用多个模型文件分类是哪个圈的)

1.? 为什么吗呀

例如月亮为什么围着地球转,其实关键词就是问题,明显有个为什么所以如果有答案就去找答案(我们如果是训练就提供训练接口,如果要回答就提供回答接口) 必须实现同义词字典,我先实现的是训练部分

是什么 , 如果我说不是那搜索结果就会出错(必须提取问题中的否定和被动)

//例如我的老鼠被猫打了可能匹配到到我的老鼠打了猫,我的猫打了老鼠,我的老鼠没有打猫,我的老鼠没有被猫打, 所以说要想要gpt智能还得靠先做模糊查询,后进行顺序和提取关键词(被动和否定) 必须记录关键词头和尾的位置

3.一句相同语境的话既是训练数据(拆分为多句)也是整句是答案

11.训练的基本思路(好奇的猫,在某个领域有重要地位) 模板+变量+for+where Insert 后期添加模板类分析套路的类

12.我有个好的想法,每天的百度的热搜讨论数据来训练模型,国考试卷真题都可以训练(文字题)--->增强文字理解(数字题)(推理题)---->逻辑(图像题)--->简单的图形推理 (大作文)--->文本生成

//可以有人足够关注的一定不简单,而且不会有数据污染

13.遇到了个问题: 关键词是不是越长越好?

要是句子很长,count ++, 我的问题关键词很短就很容易匹配到不准确的句子

例如:

经济学上所推崇的"橄榄型"收入分配结构，是指低收入和高收入相对较少、中等收入占绝大多数的分配结构。我国正在采取、实施"提低、扩中、调高、打非、保困"的方针，使收入分配朝着"橄榄型"方向发展。这主要是为了促进社会的公平

要是存在一个: 橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型橄榄型

(所以关键词要去重)

2.关键词要是存在我国橄榄型收入分配结构为了干嘛? (这个明明更加可能是答案)

3.要是存在另外一个

我的提问: 我国橄榄型收入分配结构为了干嘛?

解决方案: 匹配率(匹配到的关键字个数/关键字全部词语)

解决方案的潜在问题越短的越可能匹配到,但是长的也可能是答案(这种概率忽略不计,因为关键字重复的可能性很小) (关键字越长冲突可能性越小),最终解决方案:
4. 处理的时候还是以.。句号切分,不然多个句子有多个为什么,一般来说一个句子有1个为什么就顶天了

14.思考我做这个有什么应用场景:

1.孩子共同成长的ai助手,可以成为话痨,也可以独立实时的思考

2.对小说等进行提取关键字--->生成独特个性的二次元动画(自动去找合适的素材)生成视频,我在思考为什么他们非得要生成一整张图片,我们可以根据像PS的图层

用生成多张图片合成一张图片(难度会小很多)

(二次元)多张图片的位置,什么情况下可以组合的条件,z-index的大小,图片被覆盖的位置,图片的动画修改的插入

3.自动化也有应用场景

我想要电机无人进行预训练,而不是天天打标签