6. 向量处理机

向量的流水处理与向量机流水机处理

向量处理机是向量表示的处理机，分向量流水处理机和阵列处理机两类。（选，填）

向量流水处理机是以时间重叠途径开发的，而阵列处理机是以资源重复途径开发的。（选，填）

所谓的 Vi 冲突指的是并行工作的各向量指令的源向量或结果向量使用了相同的Vi（填）

CRAY-1 向量处理的一个显著特点是只要不出现功能部件使用冲突和源向量寄存器使用冲突，通过链接机构可使有数据相关的向量指令仍能大部分时间并行执行。（填）

链接技术是提高计算机整体运算速度的一个非常重要的措施。（填）

树形1是采用分布式存储器阵列处理机的形构。各处理单元有局部存储器（PEM）存放被分布的数据，只能被本处理单元直接访问。在控制部件内还有一个存放程序和数据的主存储器，整个系统是在控制器部件的控制下运行用户程序的部分系统程序的。

树形2是采用集中式共享存储器的阵列处理机构形。系统存储器是由K个存储分体集中组成，经ICN 为全部 N 个处理单元所共享。

阵列处理机的单指令多数据流处理方式是由它产生的特殊结构是以诸多如有限差分、矩阵、信号处理、线性规划等一系列计算问题为背景发展起来的。
与同样擅长于向量处理的流水线处理相比，阵列处理机利用的是资源重复，而不是时间重叠；利用的是并行性中的同时性，而不是并发性。
阵列处理提高速度主要靠增大处理单元数，比起向量流水处理机主要靠缩短时钟周期来说，速度提高的潜力要大得多。
与流水线处理机不同的另一个方面是阵列处理机使用简单、规整的互联网络来确定处理单元间的连接。
阵列处理机在机间互联上比固定结构的单功能流水线灵活，使相当一部分专用问题上的工作性能比流水线处理机高的多，专用性强得多。
阵列处理机的实质是由专门对数组运算的处理单元阵列组成的处理机，专门从事处理单元阵列的控制及标量处理的处理机和专门从事系统输入/输出及操作系统管理处理机组成的一个异构型多处理机系统。

SIMD 系统的互联网络的设计目标是：结构不要过分复杂，以降低成本；互联要灵活，以满足算法和应用的需要；处理单元间信息交换所需的传送步数要尽可能少，以提高速度性能；能用规整单一的基本构件组合而成，或者经过多次通过或者经多级连接实现复杂的互联，使模块性好，以便于用VLSI 实现并满足系统的扩充性。

为反映互联性，每种互联网络可用一组互连函数定义。如果把互联网络的N个入端和N个出端，各自用0,1.... ，N-1的整数编号代表，则互联函数就是表示互联网络的出端号和入端号的一一对应关系。（选、填）

在确定PE之间通信的互联网络时，需要对操作方式、控制策略、交换方法和网络的拓扑结构做出抉择。（选、填）

操作方式的同步、异步及同步与异步组合3种。现有的阵列处理机根据其SIMD 性质，均采用同步操作方式，让所有PE 按时钟同步操作。异步或组合操作方式一般多用于多处理机。

网络的拓扑结构是指互联网络入、出端可以连接的模式、有静态和动态两种。在静态拓扑结构中，两个PE之间的链是固定的，总线不能重新配置成与其他的PE 相连。

而动态拓扑结构中，两个PE之间的链通过置定网络的开关单元状态可以重新配置。

静态拓扑有一维的线型，二维的性型、星型、树型、胖树型、网络型、脉动阵列型，三维的弦环型、立方体型、环立方体型，以及其他复杂的连接形式。

由于静态网络的灵活性、适应性差，很少使用通过，才能实现任意两个处理单元之间的信息传送，故称此动态单级网络为循环网络。

动态多级网络是由多个单级网络串联组成的，以实现任意两个处理单元之间的连接。将多级互联网络循环使用，可以实现复杂的互连，称循环多级网络或多级循环网络。

脉动阵列结构是由一组处理单元（PE）构成的阵列。每个PE 的内部结构相同，一般由一个加法/逻辑运算部件或加法/乘法运算部件再加上若干锁存器构成，可以完成少数基本的算术逻辑运算操作。（选、填）

阵列内所有处理单元的数据锁存器都受同一个时钟控制。运算时数据在阵列结构的各个处理单元间沿各自的方向同步向前推进，形象的称其为脉动阵列结构。（选、填）

结构简单、规整，模块化强，可扩充性好，非常适合用超大规模集成电路实现。
PE 间数据通信距离短、规则、使数据流和控制流的设计、同步控制等均简答规整。
脉动阵列中所有PE能同时运算，具有极高的计算并行性，可通过流水获得很高的运算效率和吞吐率。输入数据能被多个处理单元重复使用，大大减轻了阵列与外界I/O 通信量，降低了对系统主存和I/O 系统频宽的要求。
脉动阵列结构的构性与特定计算任务和算法密切相关，具有某种专用性，限制了应用范围，这对VLSI 是不利的。

通过增设附加的硬件，对阵列的拓扑结构和互连方式用可编程开关进行重构，即经程序重新配置阵列的结构。
用软件把不同的算法影像到固定的阵列结构上。该方法依赖于面向并行运算所采用的程序语言、操作系统、编译程序和软件开发工具的设计。
探寻与问题大小无关的脉动处理方法，以及VLSI 运算系统的分割矩阵算法，使他们可以克服阵列只能求解固定大小题目的缺陷，同时探寻发展适合一类计算问题的通用算法和相应的设置方案。