hnust 1794: 机器翻译

hnust 1794: 机器翻译

题目描述

小晨的电脑上安装了一个机器翻译软件,他经常用这个软件来翻译英语文章。

这个翻译软件的原理很简单,它只是从头到尾,依次将每个英文单词用对应的中文含义来替换。对于每个英文单词,软件会先在内存中查找这个单词的中文含义,如 果内存中有,软件就会用它进行翻译;如果内存中没有,软件就会在外存中的词典内查找,查出单词的中文含义然后翻译,并将这个单词和译义放入内存,以备后续 的查找和翻译。

假设内存中有M个单元,每单元能存放一个单词和译义。每当软件将一个新单词存入内存前,如果当前内存中已存入的单词数不超过M−1,软件会将新单词存入一个未使用的内存单元;若内存中已存入M个单词,软件会清空最早进入内存的那个单词,腾出单元来,存放新单词。

假设一篇英语文章的长度为N个单词。给定这篇待译文章,翻译软件需要去外存查找多少次词典?假设在翻译开始前,内存中没有任何单词。

输入

输入文件共2行。每行中两个数之间用一个空格隔开。

第一行为两个正整数M和N,代表内存容量和文章的长度。

第二行为N个非负整数,按照文章的顺序,每个数(大小不超过1000)代表一个英文单词。文章中两个单词是同一个单词,当且仅当它们对应的非负整数相同。

【输入输出样例1说明】

整个查字典过程如下:每行表示一个单词的翻译,冒号前为本次翻译后的内存状况:

空:内存初始状态为空。

1.1:查找单词1并调入内存。

2.1 2:查找单词2并调入内存。

3.1 2:在内存中找到单词1。

4.1 2 5:查找单词5并调入内存。

5.2 5 4:查找单词4并调入内存替代单词1。

6.2 5 4:在内存中找到单词4。

7.5 4 1:查找单词1并调入内存替代单词2。

共计查了5次词典。

【数据范围】

对于10%的数据有M=1,N≤5。

对于100%的数据有0<M≤100,0<=N≤1000。

输出

输出共1行,包含一个整数,为软件需要查词典的次数。

样例输入 Copy

3 7

1 2 1 5 4 4 1

样例输出 Copy

5

提示

此题要求使用队列来做,但是可能要略微改动ADT.

解题过程

题目分析

这个问题是一个典型的使用队列实现的缓存淘汰问题,也称为LRU(Least Recently Used)缓存淘汰算法问题。我们需要模拟翻译软件的内存管理过程,计算在整个文章翻译过程中需要查询字典的次数。

输入格式分析

  1. 第一行包含两个正整数 MN,分别表示内存容量和文章的长度。
  2. 第二行包含 N 个非负整数,表示文章中的单词序列。

问题难点

  • 如何有效模拟内存的存储和淘汰过程。
  • 如何快速判断一个单词是否已经在内存中。

算法选择

  • 使用队列(Queue)来模拟内存的存储结构,因为队列可以方便地实现先进先出(FIFO)的特性。

解决过程

  1. 初始化:创建一个队列来存储内存中的单词,以及一个变量来记录查询字典的次数。

  2. 遍历单词序列:逐个处理输入的单词序列。

    • 对于每个单词:
      • 检查该单词是否已经在队列(内存)中:
        • 如果在,将该单词移动到队列的末尾,表示最近使用过。
        • 如果不在,增加查询字典的次数,然后将该单词添加到队列的末尾。
      • 如果添加新单词后,队列的长度超过了内存容量 M,则移除队列头部的单词,表示淘汰最早进入内存的单词。
  3. 输出结果:在处理完所有单词后,输出查询字典的总次数。

代码分解

  1. 输入处理 :读取内存容量m和文章长度n
  2. 数据结构初始化 :创建一个队列q来模拟内存,以及一个布尔数组st来标记单词是否在内存中。
  3. 文章翻译模拟 :遍历文章中的每个单词,根据单词是否在内存中,执行相应的操作:
    • 如果单词不在内存中,且内存未满,直接添加到内存。
    • 如果内存已满,先淘汰最早进入内存的单词,再添加新单词。
    • 如果单词已在内存中,更新其在内存中的位置,表示最近使用过。
  4. 查询次数统计:在添加新单词到内存时,如果该单词之前不在内存中,增加查询字典的次数。
  5. 结果输出:输出查询字典的总次数。

总结

本文通过一段C++代码,展示了如何使用队列实现LRU缓存淘汰算法,并解决了机器翻译软件中的内存管理问题。这种方法在实际应用中非常有效,可以帮助我们更好地理解和掌握数据结构和算法的基本概念。

注意事项

  • 在读取输入时,要注意处理可能的异常情况,如非法输入。
  • 在模拟内存管理时,要确保队列和数组的正确同步更新。
  • 在实际编程中,要注意代码的可读性和可维护性,合理使用变量名和注释。

代码解析

这段C++代码实现了一个基于队列的缓存淘汰算法,用于模拟题目中描述的机器翻译软件的内存管理过程。具体来说,它计算了在给定内存容量下,翻译一篇英语文章需要查询字典的次数。

1. 头文件和命名空间

  • 包含<iostream><queue>头文件,分别用于输入输出和队列操作。
  • 使用using namespace std;简化代码。

2. 常量定义

  • N定义了数组st的最大大小,这里假设所有单词的编号不会超过1010。

3. 全局变量

  • m表示内存容量。
  • n表示文章的长度,即文章中的单词数量。
  • st[N]是一个布尔数组,用于标记单词是否已加载到内存中。

4. 主函数main

  • 读取输入的内存容量m和文章长度n
  • 创建一个队列q,用于模拟内存中的单词。
  • 初始化一个计数器res,用于记录查询字典的次数。

5. 读取单词

  • 使用循环读取文章中的每个单词。
  • 对于每个单词x
    • 如果st[x]false,表示单词不在内存中:
      • 如果队列q的大小已经达到内存容量m,则从队列前端移除一个单词,并更新st数组。
      • 将新单词添加到队列中,并标记为已加载到内存。
      • 增加查询字典的次数res
    • 如果st[x]true,表示单词已在内存中,无需查询字典。

6. 输出结果

  • 循环结束后,输出查询字典的总次数res

AC代码

c 复制代码
#include <iostream>
#include <queue>
 
using namespace std;
 
const int N = 1010;
 
int m, n;
bool st[N];
 
int main()
{
    cin >> m >> n;
 
    queue<int> q;
    int res = 0;
 
    for (int i = 0; i < n; i ++ )
    {
        int x;
        cin >> x;
        if (!st[x])
        {
            if (q.size() == m)
            {
                int t = q.front();
                st[t] = false;
                q.pop();
            }
 
            q.push(x);
            st[x] = true;
            res ++ ;
        }
    }
 
    cout << res << endl;
    return 0;
}
相关推荐
AI极客菌1 小时前
Controlnet作者新作IC-light V2:基于FLUX训练,支持处理风格化图像,细节远高于SD1.5。
人工智能·计算机视觉·ai作画·stable diffusion·aigc·flux·人工智能作画
阿_旭1 小时前
一文读懂| 自注意力与交叉注意力机制在计算机视觉中作用与基本原理
人工智能·深度学习·计算机视觉·cross-attention·self-attention
王哈哈^_^1 小时前
【数据集】【YOLO】【目标检测】交通事故识别数据集 8939 张,YOLO道路事故目标检测实战训练教程!
前端·人工智能·深度学习·yolo·目标检测·计算机视觉·pyqt
UestcXiye1 小时前
《TCP/IP网络编程》学习笔记 | Chapter 3:地址族与数据序列
c++·计算机网络·ip·tcp
Power20246662 小时前
NLP论文速读|LongReward:基于AI反馈来提升长上下文大语言模型
人工智能·深度学习·机器学习·自然语言处理·nlp
数据猎手小k2 小时前
AIDOVECL数据集:包含超过15000张AI生成的车辆图像数据集,目的解决旨在解决眼水平分类和定位问题。
人工智能·分类·数据挖掘
好奇龙猫2 小时前
【学习AI-相关路程-mnist手写数字分类-win-硬件:windows-自我学习AI-实验步骤-全连接神经网络(BPnetwork)-操作流程(3) 】
人工智能·算法
沉下心来学鲁班2 小时前
复现LLM:带你从零认识语言模型
人工智能·语言模型
数据猎手小k2 小时前
AndroidLab:一个系统化的Android代理框架,包含操作环境和可复现的基准测试,支持大型语言模型和多模态模型。
android·人工智能·机器学习·语言模型
YRr YRr2 小时前
深度学习:循环神经网络(RNN)详解
人工智能·rnn·深度学习