海量数据处理(面试)

海量数据

1、从大量的URL中找出相同的URL

解法:

分治法:

  • 如果是单个很大的文件,直接划分文件,按特定大小划分,然后多线程,用map对各个文件进行统计。

  • 如果是两个很大的文件,a和b。通过遍历a文件,对每个URL进行:i=Hash(URL)%500(500为文件个数,可以为其他的值)。将该URL写入到Ai文件。对b文件也是同样的操作。然后对500个文件对【Ai, Bi】。遍历Ai文件,URL用set记录。遍历Bi文件,如果URL存在就是a、b都存在的URL。Ai、Bj中不可能存在相同的URL。

前缀树:

  • 单个文件:前缀树也是可以的。第一次就创建前缀树节点。后面就记录虫回复的URL。
  • 两个文件:对a文件先进行遍历,建立前缀树。然后对b文件遍历,如果URL在前缀树中。就记录为两个文件的相同的URL。

记:

分治法:hash划分小文件,对小文件处理。

前缀树。

2、从大量数据中找出高频词

问题描述:

一个大小为1GB的文件,文件里每一行是一个单词,每个单词16B,内存大小限制是1MB。找出频率最高的前100个单词。

解法:

  • 遍历文件中所有记录,用map记录。然后遍历map,用大小为100的小根堆筛选出TOP100。
  • 前缀树:节点值是单词的频次。然后在加上小根堆。
  • 分支法:Hash划分为多个小文件,遍历小文件进行map记录。小根堆。

3、找出访问某网站最多的ip

问题描述:

现有海量日志数据保存在一个超大文件中,文件无法直接读入内存,求其中某天访问某个网站次数最多的那个ip。

解法:

先提取日志中某天访问某个网站的全部ip到某一个文件file。接下来就是求"求出现次数最多的ip"。

  • 前缀树:遍历file,一边建立前缀树,一边记录最大值,以及对应ip。
  • 分治法:hash划分为多个小文件,i = HASH(ip) % num。这样相同的ip必然落在同一个文件中。遍历每个小文件,用map记录,再用小顶堆筛选TOP K

4、在海量数据中找出不重复的整数

问题描述:

在2.5亿个整数中找不重复的整数,内存不足以容纳这些整数。

解法:

  • 分支法:划分小文件,用set找出不重复的整数,合并子结果。

  • 位图法:每个数有三种状态(00:没有出现过,01:出现过一次,10:出现过两次),2^32*2bi = 2^33 bit = 1GB。

5、在海量数据中判断一个数是否存在

问题描述:

给定40亿个无序unsigned int,快速判断某个数字是否在这40亿个数字中

解法:

位图法,unsigned int范围是[0, 1 << 32),则需要 1 << 32 ≈ 512MB。

遍历所有数字建立位图,可以用多线程加速,无需加锁。

unsigned int bitmap16 11. 一个unsigned int的高16位确定数组的第一维度,次11位确定数组的第二维度,最低5位确定unsigned int中那一位置为一。

6、查询最热门的查询串?

解法

  • 划分小文件,unorderded_map统计小文件单词出现次数,然后小顶堆求topK
  • 前缀树+小顶堆

7、统计不同电话号码的个数

一个电话号码11位,可以用一个unsigned long long记录。问题转化为求不重复的整数的个数。

  • set
  • 位图

8、求5亿个数中的中位数

解法:

  • (内存能容纳全部数字的情况下)双堆法:一个最大堆,一个最小堆
  • 分支法:顺序读取5亿个数字,按照二进制的最高位是否为1划分为两部分。然后按照二进制的次高位继续划分。

9、如何按照query的频次排序

如果重复度较大,可以选择unordered_map

否则,内存则无法承受,先hash划分为小文件,记录频次,再对小文件频次排序,之后再归并排序。

10、Top K

相关推荐
我是一颗柠檬7 小时前
【MySQL全面教学】MySQL面试高频考点汇总Day15(2026年)
数据库·后端·mysql·面试
swipe9 小时前
DeepAgents 实战:用多 Agent 架构搭一个深度调研助手
javascript·面试·llm
雪宫街道9 小时前
synchronized 锁的范围:对象锁、类锁与代码块锁
java·jvm·后端·面试
AI人工智能+电脑小能手12 小时前
【大白话说Java面试题 第84题】【Mysql篇】第14题:为什么用 InnoDB 存储引擎的表建议用整型的自增主键?
java·开发语言·数据库·mysql·面试
小江的记录本12 小时前
【JVM虚拟机】JVM调优:常用JVM参数、调优核心指标、OOM排查、GC日志分析、Arthas工具使用(附《思维导图》+《面试高频考点清单》)
java·jvm·spring boot·后端·python·spring·面试
swipe14 小时前
DeepAgents 多 Agent 深度调研助手工程实战:从 createDeepAgent 到可控调研工作流
javascript·面试·langchain
moMo14 小时前
JavaScript 变量提升,执行上下文里的各种门道
javascript·面试
UTF_815 小时前
一次NSMutableAttributedString误用的思考
ios·面试·github
程序员卷卷狗15 小时前
Java转Go面试速记:Go基础22问,一篇理清高频易错点一篇理清高频易错点
java·面试·golang
swipe15 小时前
DeepAgents middleware 工程实战:把复杂 Agent 的运行时基建交给可组合中间件
前端·面试·llm