2024自然语言处理期末回忆

杏仁橙橙饼2024-07-02 13:33

2024.6.19考

总体来说，很离谱，那么多ppt，考之前以为肯定会考算法，看了好久的算法，结果考了很多概念题。

就是说，这门课很抽象，能不选就别选了。

1.（1）什么是预训练词向量

（2）其思想和目标是什么

（3）word2vec中，基于噪声对比的方法的训练优化过程，写出负采样的过程，给出详细公式

2.（1）什么是中文分词

（2）中文分词有什么挑战

（3）新词的统计指标

（4）"我们经常有意见"的前向和后向分词结果

3.（1）什么是文本序列标注（2）文本序列标注的应用（3）给定CRF的五元组形式CRF=(S,V,A,B,P)，写出CRF的假设和优缺点（4）给出观测序列X，求P(X| λ \lambda λ)(5)引入前向函数并用存储矩阵存储。 α \alpha αt(i)=P(x1...xt,yt=si| λ \lambda λ),给出初始化、递推过程和终止条件

4.（1）什么是句法分析，句法分析的作用（？）

（2）什么是依存句法

（3）什么是成分句法 (似乎就是上下文无关文法...)

（4）对比依存句法和成分句法的优势和不足

5.（1）什么是语言模型

（2）如何评价语言模型

（3）N-gram语言模型概率统计问题有哪些？

（4）大预言模型的训练任务

（5）根据图写出tansformer的multihead-attetion机制