CUDA C | 第一章 基于CUDA的异构并行计算

目录

1.1并行计算

[1.1.1 串行编程和并行编程](#1.1.1 串行编程和并行编程)

[1.1.2 并行性](#1.1.2 并行性)

[1.1.3 计算机架构](#1.1.3 计算机架构)


1.1并行计算

并行计算通常涉及两 个不同的计算技术领域。

·计算机架构(硬件方面)

·并行程序设计(软件方面)

计算机架构 关注的是在结构级别上支持并行性,而并行编程设计关注的是充分使用计算机架构的计算能力来并发地解决问题。为了在软件中实现并行执行,硬件必须提供一个支持并行执行多进程或多线程的平台。

1.1.1 串行编程和并行编程

1.1.2 并行性

在应用程序中有两种基本的并行类型

·任务并行

·数据并行

当许多任务或函数可以独立地、大规模地并行执行时,这就是任务并行。任务并行的重点在于利用多核系统对任务进行分配。

当可以同时处理许多数据时,这就是数据并行。数据并行的重点在于利用多核系统对数据进行分配。

通常来说,有两种方法可以对数据进行划分:块划分(block partitioning)和周期划分 (cyclic partitioning)。

在块划分中,一组连续的数据被分到一个块内。每个数据块以任意次序被安排给一个线程,线程通常在同一时间只处理一个数据块。

在周期划分中,更少的数据被分到一个块内。相邻的线程处理相邻的数据块,每个线程可以处理多个数据块。 为一个待处理的线程选择一个新的块,就意味着要跳过和现有线程一样多的数据块。

程序性能通常对块的大小比较敏感。块划分与周期划分中划分方式的选择与计算机架 构有密切关系。

1.1.3 计算机架构

根据指令和数据进入CPU的方式,将计算机架构分为4种不同 的类型

·单指令单数据(SISD) ·单指令多数据(SIMD) ·多指令单数据(MISD) ·多指令多数据(MIMD)

延迟是一个操作从开始到完成所需要的时间,常用微秒来表示。

带宽是单位时间内可处理的数据量,通常表示为MB/s或GB/s。

吞吐量是单位时间内成功处理的运算数量,通 常表示为gflops(即每秒十亿次的浮点运算数量),特别是在重点使用浮点计算的科学计算领域经常用到。

延迟用来衡量完成一次操作的时间,而吞吐量用来衡量在给定的单位时间内处理的操作量。

计算机架构也能根据内存组织方式进行进一步划分,一般可以分成下面两种类型。

·分布式内存的多节点系统

·共享内存的多处理器系统

GPU核心和CPU核心:

CPU核心比较重,用来处理非常复杂的控制逻辑,以优化串行程序执行。

GPU核心较轻,用于优化具有简单控制逻辑的数据并行任务,注重并行程序的吞吐量。

相关推荐
qq3621967052 分钟前
第三方安卓应用商店安全评测 2026:Appteka、Aptoide、APKPure 等 7 家横评
android·网络·人工智能·安全·chatgpt·智能手机
雾沉川6 分钟前
Visual C++ 运行库合集 v105.0 部署与故障排查技术指南
开发语言·c++·dll
码云骑士7 分钟前
02-Python可变对象与不可变对象(上)-赋值陷阱与函数传参的暗坑
开发语言·python
疯狂学习GIS9 分钟前
基于Python earthaccess库批量下载全球MODIS GPP(MOD17A2HGF)数据
python·脚本·批量下载·遥感影像·nasa·earthdata·自动处理
至乐活着10 分钟前
用DeepSeek打造你自己的智能问答系统:从零到一的完整指南
python·deepseek·ai应用开发·智能问答系统·api教程
qq_2915792510 分钟前
电商主图优化实战指南:AI工具如何提升点击率与转化率
大数据·人工智能·深度学习
机器学习之心11 分钟前
基于 GRU-Attention 的多工况车速预测:当序列建模遇见自注意力
人工智能·深度学习·gru·多工况车速预测
AI创界者14 分钟前
【解压即用】Scail-2 视频动作迁移一键整合包:8G显存通吃50系,长视频/多人/精准目标替换全攻略
人工智能·python·aigc·音视频
土星云SaturnCloud14 分钟前
从云端到边缘:电子装配线AI视频分析在土星云SE110S-WA32上的落地实践
服务器·人工智能·ai·边缘计算
丘山望岳19 分钟前
剑起霜华——平衡二叉树(AVL树 )精讲
开发语言·数据结构·c++