2024.6.19考
总体来说,很离谱,那么多ppt,考之前以为肯定会考算法,看了好久的算法,结果考了很多概念题。
就是说,这门课很抽象,能不选就别选了。
1.(1)什么是预训练词向量
(2)其思想和目标是什么
(3)word2vec中,基于噪声对比的方法的训练优化过程,写出负采样的过程,给出详细公式
2.(1)什么是中文分词
(2)中文分词有什么挑战
(3)新词的统计指标
(4)"我们经常有意见"的前向和后向分词结果
3.(1)什么是文本序列标注(2)文本序列标注的应用(3)给定CRF的五元组形式CRF=(S,V,A,B,P),写出CRF的假设和优缺点(4)给出观测序列X,求P(X| λ \lambda λ)(5)引入前向函数并用存储矩阵存储。 α \alpha αt(i)=P(x1...xt,yt=si| λ \lambda λ),给出初始化、递推过程和终止条件
4.(1)什么是句法分析,句法分析的作用(?)
(2)什么是依存句法
(3)什么是成分句法 (似乎就是上下文无关文法...)
(4)对比依存句法和成分句法的优势和不足
5.(1)什么是语言模型
(2)如何评价语言模型
(3)N-gram语言模型概率统计问题有哪些?
(4)大预言模型的训练任务
(5)根据图写出tansformer的multihead-attetion机制