引言:一场跨越时空的硬件豪赌
如果在 2026 年的今天,有人告诉你他想写一个世嘉 Mega Drive (MD/Genesis) 模拟器,你大概率会推荐他用 C++ 20、Rust 或者哪怕是 Python,跑在 64 位的现代操作系统上。
但如果我把底牌抽走,给你套上最沉重的历史枷锁呢?
- 操作系统:MS-DOS 6.22
- 编译器:Turbo C 3.0 (TC3)
- 内存上限:640KB 常规内存(绝不使用 XMS/EMS 扩展内存)
- 运行环境:实模式(Real Mode),没有 32 位保护模式的庇护
在大多数现代程序员眼里,这无异于自杀。MD 的游戏卡带(ROM)动辄 1MB 到 4MB,而你的物理内存上限只有 640KB,甚至连一张卡带的四分之一都装不下!更不用说,你还要在里面塞进 16 位小端序的 PC 代码、去模拟 16 位大端序的 Motorola 68000 和 8 位的 Z80 双处理器,同时还得压榨出每秒 60 帧的画面。
这真的可能吗?
今天,我们要抛开所有的思维定势,来一场基于计算机底层原理的极限大猜想。
猜想一:640KB 装不下几兆的 ROM?那就把文件指针当成 CPU 的总线!
开发模拟器,大家的第一反应往往是:fopen 打开 ROM ──> malloc 申请几兆内存 ──> fread 一把全塞进去。但在 16 位实模式下,malloc 最大只能给你 64KB 的段(Segment)。
疯子的解法:如果内存装不下,我们为什么非要装下它?
让我们把思维逆转过来。在真实的世嘉 MD 主机里,主 CPU (M68K) 的引脚是直接焊接在卡带插槽上的。当 CPU 需要读取下一条指令时,它通过地址线发射电信号,卡带芯片瞬间返回数据。
在 DOS 环境下,我们难道不能把 RAM Disk(内存盘)里的 ROM 文件 当成那块物理卡带吗?
- 我们的模拟器 PC 指针,不再是一个实模式的内存地址,而是一个
unsigned long类型的文件偏移量。 - 每当 M68K 的指令指针(PC)向前移动,我们就调用
fseek和fread,去 RAM Disk 里临时抠出 2 个字节的机器码。
猜想二:"滑动窗口"降维打击 ── 徒手造一个 MMU
既然每次读文件太慢,全读进去又没地方放,那我们就实现一个软分段(Segmentation)机制。
在 640KB 的常规内存里,我们牙缝里挤出 64KB,开辟一个 far 数组缓冲区。
- 这个 64KB 的缓冲区,就是我们观察 4MB 卡带的"视口"。
- 当 M68K 的逻辑 PC 指针在这个 64KB 范围内活动时,我们的模拟器直接在内存里指针寻址,速度快如闪电!
- 只有当《索尼克》打赢了 Boss,发生远距离代码跳转(JMP),PC 指针飞出了这 64KB 边界时,我们才触发一次"缺页异常" ── 刹车、移动文件指针、用 RAM Disk 重新填满这 64KB 缓冲区。
看!我们没有使用任何保护模式的硬件支持,却用纯 C 语言逻辑,在 16 位实模式里模拟出了现代 CPU 赖以生存的 MMU(内存管理单元) 核心思想。
猜想三:大端序与小端序的"迎头痛击"
解决了卡带加载,紧接着就是硬件底层不可调和的矛盾:
- MD 的 M68000 是大端序(Big-Endian):高位字节在前,低位字节在后。
- PC 的 8086/Pentium 是小端序(Little-Endian):低位字节在前,高位字节在后。
这意味着,如果我们从卡带读取一条指令 0x4E75(M68K 的 RTS 返回指令),直接存入 PC 内存,PC 的 CPU 会把它理解成 0x754E ── 逻辑瞬间崩溃。
如果我们在每读取一个字(Word)的时候都去用 C 语言做位移转换:(data >> 8) | (data << 8),Pentium 处理器那可怜的流水线会被这种无效的算术运算彻底挤爆。
我们要搞就搞极致的:
在"滑动窗口"从 RAM Disk 读取 64KB 数据进内存的瞬间,直接用一段内联汇编,调用 8086 的硬件绝活 ── XCHG AH, AL。
一个循环,在一瞬间把整个 64KB 缓冲区的字节两两对调。这样,后续的指令解码器在读取数据时,就可以直接享受"免转换"的本地速度。
猜想四:在单任务 DOS 中编织双处理器的时间线
世嘉 MD 内部是一套非常奇葩的"双 CPU 主从架构":主 CPU 是一代神芯 Motorola 68000,副 CPU 则是从上个世代(红白机、SMS 时代)退役下来的 8 位老将 Z80。
说白了,MD 的日常就是:大哥 M68K 在前面疯狂跑游戏程序、拼命渲染画面,把小弟 Z80 死死按在椅子上吹喇叭(专职负责播放 FM 音乐和音效)。 两个 CPU 的频率比大约是 2.14 : 1,它们通过一个狭窄的共享内存通道协作。
可是,我们的 MS-DOS 是个不折不扣的"单任务单线程"系统,既没有现代操作系统的多线程(Pthread)并发,更不懂得什么叫并行。我们要在只有单核的 PC 上,怎么同时还原"大哥冲锋、小弟吹喇叭"的场面,还不让声音和画面卡顿?
答案是:我们只能化身为"微观时间的主宰",把它们俩按在同一个时间线上轮流摩擦。
既然不能并行,那我们就用时钟周期计数器(Cycle Counter)把时间切成碎屑。
游戏画面的一帧,在硬件上是由 262 条扫描线(Scanline)构成的。每一条扫描线,正好对应大哥 M68K 执行 488 个时钟周期。
那我们就写一个密不透风的大循环:
for (line = 0; line < 262; line++) {
execute_m68k(488); // 强制让大哥 M68K 跑 488 个周期,算完这一行的画面
execute_z80(228); // 按照频率比例,强制把 Z80 戳醒,让它吹 228 个周期的喇叭
render_scanline(line); // 顺手把这一行的 VGA 图形吐到 PC 显存里
}
两个处理器在我们的微观调度下,就像拉锯一样交替向前推进时间。在宏观上看,声音和画面就达成了完美的同步,读者在 DOSBox 里听到的《索尼克》BGM 也就绝不会变调!
结语:这是一场致敬,也是一次底层的突围
这场猜想可行吗?逻辑上,它完全闭环;技术上,它退无可退。
我们放弃了现代操作系统提供的几吉字节(GB)的虚拟内存,放弃了高级编译器的自动优化,退回到了 1990 年代初那个只有 640KB 常规内存的荒凉世界。但正是这种极端的限制,逼着我们去思考:什么是地址总线?什么是内存映射?如何用纯粹的算法逻辑,去跨越硬件代差的鸿沟?
这个极限挑战项目我已经正式立项。接下来,我将尝试在 DOSBox 和 TC3 环境下,敲下这个"16位实模式 MD 模拟器"的第一行代码。
你觉得这个近乎疯狂的方案,会在哪一个环节率先翻车?是 M68K 变长指令集的解码地狱,还是 VGA Mode 13h 的显存吞吐瓶颈?
欢迎在评论区留下你的毒奶和见解。下一期,我们将正式解剖《索尼克 1》的 ROM Header,看看游戏是如何在我们手搓的虚拟空间里睁开第一双眼睛的!