2023-2024山东大学软件学院web数据管理期末

一、填空(30*1' = 30')

都是PPT上的,这里列几个复习可能忽略掉的地方:

word2vec是用来计算____和___(king-man+woman)

爬虫模型使用___判重

fastText是一个_____和_____工具,使用_____方法/概念。

PLSA的全称是______。它通过文档-词项信息 p (w | d) 进行训练,得到______和________。

csv文件是_____结构化文件

其余的题都比较基础,一眼能知道答案(只要好好看PPT了的话.....)

二、名词解释(5*8' = 40')

  1. 正则表达式

  2. web数据抽取

  3. HMM模型

  4. Bag of words model

  5. 忘了(但不难)---统计语言模型

三、简答题(3*10'=30')

  1. 简述包装器,比较两种抽取方法

  2. CBOW的结构、思想、训练过程及应用

  3. 常用的图像局部特征,以及它们的思想

还是那句话,做好事积德......

相关推荐
阿正的梦工坊几秒前
Rubicon论文数据部分详解:从Rubric设计到RL Pipeline的全流程
人工智能·深度学习·机器学习·语言模型·自然语言处理
njsgcs14 分钟前
cuas 电脑操作ai 相关
人工智能
独自归家的兔26 分钟前
基于 cosyvoice-v3-plus 的 个人音色复刻 (华为OBS)
人工智能·华为·语音识别
Legend NO2427 分钟前
如何构建自己高质量语料库?
人工智能·非结构化数据
Hcoco_me32 分钟前
大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)
人工智能·rnn·深度学习·学习·自然语言处理·word2vec
Java后端的Ai之路32 分钟前
【神经网络基础】-神经网络优化方法全解析
人工智能·深度学习·神经网络·机器学习
高洁0134 分钟前
深度学习—卷积神经网络(2)
人工智能·深度学习·机器学习·transformer·知识图谱
一招定胜负35 分钟前
项目案例:卷积神经网络实现食物图片分类代码详细解析
人工智能·分类·cnn
景联文科技36 分钟前
景联文 × 麦迪:归一医疗数据枢纽,构建AI医疗新底座
大数据·人工智能·数据标注
wyg_03111339 分钟前
机器问道:大模型RAG 解读凡人修仙传
人工智能·python·transformer