一、填空(30*1' = 30')
都是PPT上的,这里列几个复习可能忽略掉的地方:
word2vec是用来计算____和___(king-man+woman)
爬虫模型使用___判重
fastText是一个_____和_____工具,使用_____方法/概念。
PLSA的全称是______。它通过文档-词项信息 p (w | d) 进行训练,得到______和________。
csv文件是_____结构化文件
其余的题都比较基础,一眼能知道答案(只要好好看PPT了的话.....)
二、名词解释(5*8' = 40')
-
正则表达式
-
web数据抽取
-
HMM模型
-
Bag of words model
-
忘了(但不难)---统计语言模型
三、简答题(3*10'=30')
-
简述包装器,比较两种抽取方法
-
CBOW的结构、思想、训练过程及应用
-
常用的图像局部特征,以及它们的思想
还是那句话,做好事积德......