2023-2024山东大学软件学院web数据管理期末

一、填空(30*1' = 30')

都是PPT上的,这里列几个复习可能忽略掉的地方:

word2vec是用来计算____和___(king-man+woman)

爬虫模型使用___判重

fastText是一个_____和_____工具,使用_____方法/概念。

PLSA的全称是______。它通过文档-词项信息 p (w | d) 进行训练,得到______和________。

csv文件是_____结构化文件

其余的题都比较基础,一眼能知道答案(只要好好看PPT了的话.....)

二、名词解释(5*8' = 40')

  1. 正则表达式

  2. web数据抽取

  3. HMM模型

  4. Bag of words model

  5. 忘了(但不难)---统计语言模型

三、简答题(3*10'=30')

  1. 简述包装器,比较两种抽取方法

  2. CBOW的结构、思想、训练过程及应用

  3. 常用的图像局部特征,以及它们的思想

还是那句话,做好事积德......

相关推荐
亚马逊云开发者2 分钟前
Serverless is all you need: 在亚马逊云科技上一键部署大模型API聚合管理平台OneHub
人工智能
人工智能训练7 分钟前
Docker中Dify镜像由Windows系统迁移到Linux系统的方法
linux·运维·服务器·人工智能·windows·docker·dify
夏洛克信徒7 分钟前
AI盛宴再启:Gemini 3与Nano Banana Pro掀起的产业革命
人工智能·神经网络·自然语言处理
背心2块钱包邮8 分钟前
第24节——手搓一个“ChatGPT”
人工智能·python·深度学习·自然语言处理·transformer
致Great13 分钟前
Chatgpt三周年了:大模型三年发展的里程碑
人工智能·chatgpt·agent
gaetoneai15 分钟前
当OpenAI内部命名乱成“GPT-5.1a-beta-v3-rev2”,Gateone.ai 已为你筑起一道“多模态智能的稳定防线”。
人工智能·语音识别
23遇见16 分钟前
ChatGPT 之后,AI 的下一步突破是什么
人工智能·chatgpt
乐迪信息17 分钟前
乐迪信息:皮带区域安全值守:AI摄像机杜绝煤矿人员闯入
大数据·运维·人工智能·安全·计算机视觉
西西o17 分钟前
SpringAi GA1.0.0入门到源码完整系列课
人工智能·语言模型
IT_陈寒17 分钟前
Vite 5个隐藏功能大揭秘:90%的开发者都不知道这些提速技巧!
前端·人工智能·后端