一、标注题
----一段文字-----
1、用斜线对这段文字分词
2、标出这段文字里的命名实体,说明其类型
3、----一句话----- 画出这句话的短语结构树
4、----一句话---- 画出这句话的依存关系
二、简答题
1、与前馈神经网络、循环神经网络、自注意力网络相比,卷积神经网络能做语言模型吗?如果能做,说明优势和不足,如果不能,说明理由。
2、ELMO由两层LSTM构成,与Bert、GPT等Transformer预训练结构相比,有什么优势和不足。
3、词表V的大小对于效率和性能的影响。
4、简要说明Zero1/2/3的原理,并说明它们在工作时要同步的信息分别是什么。
5、指令微调和基于人类反馈的对齐分别的目的是什么?基于人类反馈的对齐中,如何才能将人类价值观内化到参数里?
三、计算题
1、给出一个词表{----------},用该词表对下面的句子进行切分。计算压缩比。
2、--------------一个译文句子,两个参考答案句子----------------------------------------------
(1)计算译文与答案的编辑距离。
(2)按照BLEU中的一元、二元、三元、四元文法,计算译文的精确率。
四、大模型会不知道自己不知道什么,有幻觉,设计一个算法解决这个问题