根据AI算法步骤,可分为演习(training)和推理(inference)两个环节。
演习环节常日须要通过大量的数据输入,演习出一个繁芜的深度神经网络模型。演习过程由于涉及海量的演习数据和繁芜的深度神经网络构造, 运算量巨大,须要弘大的打算规模, 对付处理器的打算能力、精度、可扩展性等性能哀求很高。目前市场上常日利用英伟达的 GPU 集群来完成, Google 的 TPU 系列 、华为昇腾 910 等 AI 芯片也支持演习环节的深度网络加速。
推理环节是指利用演习好的模型,利用新的数据去“推理”出各种结果。与演习阶段不同,推理阶段常日就不涉及参数的调度优化和反向传播了,它紧张关注如何高效地将输入映射到输出。这个环节的打算量相对演习环节少很多,但仍旧会涉及到大量的矩阵运算。在推理环节中,除了利用 CPU 或 GPU 进走运算外, FPGA 以及 ASIC 均能发挥重大浸染。范例的推理卡包括NVIDIA Tesla T4、NVIDIA Jetson Xavier NX、Intel Nervana NNP-T、AMD Radeon Instinct MI系列、Xilinx AI Engine系列等。

演习卡和推理卡的差异:
演习卡一样平常都可以作为推理卡利用,而推理卡努努力不在乎韶光本钱的情形下大部分也能作为演习卡利用,但常日不这么做。
紧张缘故原由在于二者在架构上就有很大的差别,推理芯片常日针对前向传播过程进行了高度优化,以实现高效的预测和分类任务。因此,它们的架构和指令集对付演习过程所需的大量参数更新和反向传播操作支持能力就弱了很多。
此外,演习芯片常日拥有更高的打算能力和内存带宽,以支持演习过程中的大量打算和数据处理。比较之下,推理芯片常日会在打算资源和内存带宽方面受到一定的限定。同时,二者支持的打算精度也常日不同,演习阶段须要高精度打算,因此常用高精度浮点数如:fp32,而推理阶段一样平常只须要int8就可以担保推理精度。
除了高带宽高并行度外,就片内片外的存储空间而言演习芯片常日比较“大”,这是演习过程中常日须要大量的内存来存储演习数据、中间打算结果以及模型参数。相较而言推理芯片可能无法供应足够的存储容量来支持演习过程。