2023-2024山东大学软件学院web数据管理期末

一、填空(30*1' = 30')

都是PPT上的,这里列几个复习可能忽略掉的地方:

word2vec是用来计算____和___(king-man+woman)

爬虫模型使用___判重

fastText是一个_____和_____工具,使用_____方法/概念。

PLSA的全称是______。它通过文档-词项信息 p (w | d) 进行训练,得到______和________。

csv文件是_____结构化文件

其余的题都比较基础,一眼能知道答案(只要好好看PPT了的话.....)

二、名词解释(5*8' = 40')

  1. 正则表达式

  2. web数据抽取

  3. HMM模型

  4. Bag of words model

  5. 忘了(但不难)---统计语言模型

三、简答题(3*10'=30')

  1. 简述包装器,比较两种抽取方法

  2. CBOW的结构、思想、训练过程及应用

  3. 常用的图像局部特征,以及它们的思想

还是那句话,做好事积德......

相关推荐
HyperAI超神经2 分钟前
教程汇总丨开源小模型综合智能水平追平GPT-5,一站测评Qwen 3.5/Gemma 4等热门模型
人工智能
观远数据4 分钟前
跨部门指标统一治理:如何消除数据口径歧义提升决策效率
大数据·人工智能·数据挖掘·数据分析
常宇杏起6 分钟前
AI安全进阶:AI模型鲁棒性测试的核心方法
大数据·人工智能·安全
搜佛说14 分钟前
sfsEdgeStore,工业物联网边缘计算的“瘦身”革命
人工智能·物联网·边缘计算
算力百科小智16 分钟前
2026 年深度学习 GPU 算力租用平台全面对比
人工智能·智星云·gpu算力租用
木泽八31 分钟前
2026年网络安全威胁全景:AI攻防新纪元完全指南
人工智能·安全·web安全
MediaTea31 分钟前
知识图谱 04:知识表示模型
人工智能·知识图谱
词元Max32 分钟前
Java 转 AI Agent 开发学习路线(2026年3月最新版)
java·人工智能·学习
实在智能RPA36 分钟前
Agent如何帮助企业减少人为操作失误?——2026年企业级智能体闭环执行与风险治理深度拆解
人工智能·ai
数字卢语39 分钟前
如何从 0 搭建 Hermes Agent,并打通微信的(完整踩坑与排错记录)
人工智能