目录
引言
自然语言处理没有大家都认可的一个定义。
研究人与人交际中以及在人与计算机交际中的语言问题的一门学科。
自然语言的变化是不受人控制。
如basical方言太多,已经消亡了。C语言依然兴旺,有人工控制的作用。
语言处理与人工智能密不可分。
怎么机器可以更像人?1、下棋胜过人 2、用语言与人交流
图灵都预言到了。现在的AlphaGo与CHATGPT就是实证。
NLP的发展与现状
发展
机器翻译
66年ALPAC《语言与机器》对机器翻译采取否定的态度。
报告指出,机器翻译难以克服"语义障碍"。(布尔模型的问题)
The pen was in the box. The box was in the pen.
钢笔在盒子里,盒子在围栏里。查字典式的机器翻译被判死刑。
人工智能陷入十年寒冬。
机器翻译+知识记忆(高频词汇记录)
1、知识记忆一开始是学语言学的整理的,他们负责整理规则。(人工整理)
虽然效果不好,但很好做,容易水论文。
1:知识驱动时代 2、3数据驱动时代(有知识,但人越来越难理解,炼丹)
2、从数据当中学知识,人再去标注正确错误。(机器学习)
3、深度学习:自然语言处理系统(知识)
| 微调 ----------------指令
预训练模型 | 标注
| 训练 人类
数据
预训练方法成功的两个关键:自监督学习、transformer
现状
GPT 让GPT做事,要多加限定词,不然知识很难激活,会翻译错意思。
语言跟思维是否等同?若不等同,说明大模型这条路实现不了真正的人工智能。
有些情况不用大模型能否成功?因为大模型需要的资源大部分高校无法提供。
张钹院士,周志华,周明教授都说要在新一代人工智能中加入知识。当时第一个老师有反驳。
这个老师是支持大模型是有知识的,说不承认大模型有知识就是一叶障目不见泰山,但只是它自己的知识,是人不能理解的。
我们的尝试
考虑能不能将知识显化,或者融入几十年间的成果。
融入外部知识库
写一个普法模型 全过程类似搜索引擎的创建
融合语言先验知识
1、生物医学领域命名实体识别
引入辅助任务+多任务学习
2、强化对表情的关注,实现手语翻译功能
方案一:手套(不行)脸部信息
方案二:深度相机(成本太高)
方案三:普通相机或者手机
手语是主宾谓,而且会省略很多词语;
手语中表情很重要。
融合语篇知识
篇章连贯性与篇章连接性
词嵌入:同义词与反义词向量太近
语篇结构指导机器翻译的关联性
基于主-述标注语料