P2P DMA并不是所有场景都会有性能提升

P2P (Peer-to-Peer) DMA技术理论上可以带来性能提升，特别是在特定的工作负载和场景下。例如，当两个高速设备（如GPU与NVMe SSD）需要频繁进行大量数据交换时，通过P2P DMA，数据可以直接在设备间传输，无需经过CPU中转，这样可以减少数据在系统内存中的多次复制以及CPU上下文切换带来的开销，从而提高整体的数据传输效率和系统的吞吐量。

然而，并非所有情况下使用P2P DMA都会带来性能提升。以下几种情况可能会导致P2P DMA并不一定优于传统的CPU中转方式：

数据已经在页缓存中：对于已经存在于CPU页缓存中的数据，如果直接由CPU读取并发送至其他设备，由于不需要从存储介质再次读取，实际速度可能比P2P DMA更快，因为P2P DMA绕过了页缓存的优化机制。

此时，对于CPU中转I/O方式，首先通过pread()函数将数据读入CPU缓冲区，然后通过cudaMemcpy()将缓冲区内容复制到GPU。

这个性能差距的原因在于操作系统中的预读机制。该机制能透明地优化CPU中转I/O，而p2p则完全绕过了这一机制。操作系统会异步预取文件内容到页缓存中，使得从磁盘读取和CPU-GPU数据传输过程重叠进行。预取器逐步增加预取数据请求的大小，直至默认最大值512KB，从而实现了远高于p2p的SSD有效带宽，因为p2p执行的是短读操作。

对于复杂工作负载，当文件内容被缓存在页缓存中时（这在多个合作应用程序构成的复杂软件系统中经常发生），p2p仅在访问持久存储中的文件时效率较高，但其性能明显低于CPU中转I/O。

然而，由于页缓存的内容随工作负载动态变化，程序员在选择文件传输机制时没有绝对的最佳方案。例如，设想一个中央日志服务器接收来自其他机器通过网络发送的日志，并将其存储在本地。作为另一个应用运行的日志扫描器可能稍后分析这些日志来检测可疑事件。在这种流式工作负载场景下，使用p2p似乎是一个可行的选择。但如果扫描器在文件更新后立即调用，文件内容可能仍然保留在页缓存中，此时使用p2p会导致系统吞吐量降低

短小、零散的I/O操作：对于非常短小或随机的I/O请求，OS预读和写后处理等机制能够对CPU中转模式提供优化，而P2P DMA则可能由于每次DMA传输都需要额外的设置和管理开销，反而无法充分利用其优势。
硬件限制和兼容性问题：并非所有的PCIe设备都支持P2P DMA，且不同厂商之间的设备之间可能存在兼容性问题，这可能导致在启用P2P DMA时需要更多的驱动层复杂性和潜在的性能损失。
软件栈复杂性：采用P2P DMA时，应用程序和驱动程序必须正确地管理和配置DMA传输，包括地址映射、权限控制等，这些复杂度可能会抵消掉部分性能优势。

因此，是否采用P2P DMA应根据具体的应用场景和工作负载来决定，而非一概认为P2P DMA一定能带来性能提升。在实际应用中，要综合考虑硬件特性、操作系统行为、软件设计等因素，才能确保P2P DMA能发挥出应有的效果。