用FPGA实现FFT的方法基于FPGA的快速傅立叶变换_傅立叶_暗记

文章目录 [+]

择要：在对FFT（快速傅立叶变换）算法进行研究的根本上，描述了用FPGA实现FFT的方法，并对个中的整体构造、蝶形单元及性能等进行了剖析。

傅立叶变换是数字旗子暗记处理中的基本操作，广泛运用于表述及剖析离散时域旗子暗记领域。
但由于其运算量与变换点数Ｎ的平方成正比关系，因此，在Ｎ较大时，直接应用ＤＦＴ算法进行谱变换是不相符实际的。
然而，快速傅立叶变换技能的涌现使情形发生了根本性的变革。
本文紧张描述了采取ＦＰＧＡ来实现２ｋ／４ｋ／８ｋ点ＦＦＴ的设计方法。

用FPGA实现FFT的方法基于FPGA的快速傅立叶变换_傅立叶_暗记通讯

１、整体构造

一样平常情形下，Ｎ点的傅立叶变换对为：

个中，ＷＮ＝ｅｘｐ(－２ｐｉ／Ｎ)。
Ｘ(ｋ)和ｘ(ｎ)都为复数。
与之相对的快速傅立叶变换有很多种,如ＤＩＴ(时域抽取法)、ＤＩＦ（频域抽取法）、Ｃｏｏｌｅｙ－Ｔｕｋｅｙ和Ｗｉｎｏｇｒａｄ等。
对付２ｎ傅立叶变换，Ｃｏｏｌｅｙ－Ｔｕｋｅｙ算法可导出ＤＩＴ和ＤＩＦ算法。
本文利用的基本思想是Ｃｏｏｌｅｙ－Ｔｕｋｅｙ算法，即将高点数的傅立叶变换通过多重低点数傅立叶变换来实现。
虽然ＤＩＴ与ＤＩＦ有差别，但由于它们在实质上都是一种基于标号分解的算法，故在运算量和算法繁芜性等方面完备一样，而没有性能上的利害之分，以是可以根据须要任取个中一种，本文紧张以ＤＩＴ方法为工具来谈论。

Ｎ＝８１９２点ＤＦＴ的运算表达式为：

式中，ｍ＝(４ｎ１＋ｎ２)(２０４８ｋ１＋ｋ２)(ｎ＝４ｎ１＋ｎ２，ｋ＝２０４８ｋ１＋ｋ２)个中ｎ１和ｋ２可取０,１,．．．,２０４７,ｋ１和ｎ２可取０,１,２,３。

由式（３）可知，８ｋ傅立叶变换可由４×２ｋ的傅立叶变换构成。
同理，４ｋ傅立叶变换可由２×２ｋ的傅立叶变换构成。
而２ｋ傅立叶变换可由１２８×１６的傅立叶变换构成。
１２８的傅立叶变换可进一步由１６×８的傅立叶变换构成，归根结底，全体傅立叶变换可由基２、基４的傅立叶变换构成。
２ｋ的ＦＦＴ可以通过５个基４和１个基２变换来实现；４ｋ的ＦＦＴ变换可通过６个基４变换来实现；８ｋ的ＦＦＴ可以通过６个基４和１个基２变换来实现。
也便是说：ＦＦＴ的基本构造可由基２／４模块、复数乘法器、存储单元和存储器掌握模块构成，其整体构造如图１所示。

图１中，ＲＡＭ用来存储输入数据、运算过程中的中间结果以及运算完成后的数据，ＲＯＭ用来存储旋转因子表。
蝶形运算单元即为基２／４模块，掌握模块可用于产生掌握时序及地址旗子暗记，以掌握中间运算过程及末了输出结果。

２、形运算器的实现

基４和基２的旗子暗记流如图２所示。
图中，若Ａ＝ｒ０＋ｊ＊ｉ０，Ｂ＝ｒ１＋ｊ＊ｉ１，Ｃ＝ｒ２＋ｊ＊ｉ２，Ｄ＝ｒ３＋ｊ＊ｉ３是要进行变换的旗子暗记，Ｗｋ０＝ｃ０＋ｊ＊ｓ０＝１，Ｗｋ１＝ｃ１＋ｊ＊ｓ１，Ｗｋ２＝ｃ２＋ｊ＊ｓ２，Ｗｋ３＝ｃ３＋ｊ＊ｓ３为旋转因子，将其分别代入图２中的基４蝶形运算单元，则有：

Ａ′＝[ｒ０＋(ｒ１×ｃ１－ｉ１×ｓ１)＋(ｒ２×ｃ２－ｉ２×ｓ２)＋(ｒ３×ｃ３－ｉ３×ｓ３)]＋ｊ[ｉ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)＋(ｉ２×ｃ２＋ｒ２×ｓ２)＋(ｉ３×ｃ３＋ｒ３×ｓ３)]??　（４）

Ｂ′＝[ｒ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)－(ｒ２×ｃ２－ｉ２×ｓ２)－(ｉ３×ｃ３＋ｒ３×ｓ３)]＋ｊ[ｉ０－(ｒ１×ｃ１－ｉ１×ｓ１)－(ｉ２×ｃ２＋ｒ２×ｓ２)＋(ｒ３×ｃ３－ｉ３×ｓ３)]　(５）

Ｃ′＝[ｒ０－(ｒ１×ｃ１－ｉ１×ｓ１)＋(ｒ２×ｃ２－ｉ２×ｓ２)－(ｒ３×ｃ３－ｉ３×ｓ３)]＋ｊ[ｉ０－(ｉ１×ｃ１＋ｒ１×ｓ１)＋(ｉ２×ｃ２＋ｒ２×ｓ２)－(ｉ３×ｃ３＋ｒ３×ｓ３)]（６）

Ｄ′＝[ｒ０－(ｉ１×ｃ１＋ｒ１×ｓ１)－(ｒ２×ｃ２－ｉ２×ｓ２)＋(ｉ３×ｃ３＋ｒ３×ｓ３)]＋ｊ[ｉ０＋(ｒ１×ｃ１－ｉ１×ｓ１)－(ｉ２×ｃ２＋ｒ２×ｓ２)－(ｒ３×ｃ３－ｉ３×ｓ３)]??（７）而在基２蝶形中，Ｗｋ０和Ｗｋ２的值均为１，这样，将Ａ，Ｂ，Ｃ和Ｄ的表达式代入图２中的基２运算的四个等式中，则有：

Ａ′＝ｒ０＋(ｒ１×ｃ１－ｉ１×ｓ１)＋ｊ[ｉ０＋(ｉ１×ｃ１＋ｒ１×ｓ１)]?? （８）

Ｂ′＝ｒ０－ (ｒ１×ｃ１－ｉ１×ｓ１)＋ｊ[ｉ０－(ｉ１×ｃ１＋ｒ１×ｓ１)] 　（９）

Ｃ′＝ｒ２＋(ｒ３×ｃ３－ｉ３×ｓ３)＋ｊ[ｉ０＋(ｉ３×ｃ３＋ｒ３×ｓ３)]?? （１０）

Ｄ′＝ｒ２－(ｒ３×ｃ３－ｉ３×ｓ３)＋ｊ[ｉ０－(ｉ３×ｃ３＋ｒ３×ｓ３)]?? （１１）

在上述式（４）～（１１）中有很多类同项，如ｉ１×ｃ１＋ｒ１×ｓ１和ｒ１×ｃ１－ｉ１×ｓ１等，它们仅仅是加减号的不同，其构造和运算均类似，这就为简化电路供应了可能。
同时，在蝶形运算中，复数乘法可以由实数乘法以一定的格式来表示，这也为设计复数乘法器供应了一种实现的路子。

以基４为例，在其运算单元中，实际上只需做三个复数乘法运算，即只须打算ＢＷｋ１、ＣＷｋ２和ＤＷｋ３的值即可，这样在一个基４蝶形单元里面，最多只须要３个复数乘法器就可以了。
在实际过程中，在不提高时钟频率下，只要将时序掌握好?煴憧衫?用流水线（Ｐｉｐｅｌｉｎｅ）技能并只用一个复数乘法器就可完成这三个复数乘法，大大节省了硬件资源。

３、ＦＦＴ的地址

ＦＦＴ变换后输出的结果常日为一特定的倒序,因此，几级变换后对地址的掌握必须准确无误。

倒序的规律是和分解的办法密切干系的，以基８为例，其基本倒序规则如下：

基８可以用２×２×２基２变换来表示，则其输入顺序则可用二进制序列（ｎ１ｎ２ｎ３）来表示，变换结束后，其顺序将变为（ｎ３ｎ２ｎ１），如：Ｘ?煟埃保保?→ ｘ?煟保保埃牐?即输入顺序为３，输出时顺序变为６。

更进一步，对付基１６的变换，可由２×２×２×２，４×４，４×２×２等形式来构成，相对付不同的分解形式，每每会有不同的倒序办法。
以４×４为例，其输入顺序可以用二进制序列（ｎ１ｎ２ｎ３ｎ４）来表示变换结束后，其顺序可变为（（ｎ３ｎ４）（ｎ１ｎ２）），如：Ｘ?煟埃保保保?→ ｘ?煟保保埃保牎＜词淙胨承蛭?７，输出时顺序变为１３。

在２ｋ／４ｋ／８ｋ的傅立叶变换中，由于要经由多次的基４和基２运算，因此，从每次运算完成后到进入下一次运算前，应对运算的结果进行倒序，以担保运算的精确性。

４、旋转因子

Ｎ点傅立叶变换的旋转因子有着明显的周期性和对称性。
其周期性表现为：FFT之以是可使运算效率得到提高，便是利用ＦＦＴ之以是可使运算效率得到提高，便是利用了对称性和周期性把长序列的ＤＦＴ逐级分解成几个序列的ＤＦＴ，并终极以短点数变换来实现长点数变换。

根据旋转因子的对称性和周期性，在利用ＲＯＭ存储旋转因子时，可以只存储旋转因子表的一部分，而在读出时增加读出地址及符号的掌握，这样可以精确实现ＦＦＴ。
因此,充分利用旋转因子的性子，可节省７０％以上存储单元。

实际上，由于旋转因子可分解为正、余弦函数的组合，故ＲＯＭ中存的值为正、余弦函数值的组合。
对２ｋ／４ｋ／８ｋ的傅立叶变换来说，只是对一个周期进行不同的分割。
由于８ｋ变换的旋转因子包括了２ｋ／４ｋ的所有因子，因此，实现时只要对读ＲＯＭ的地址进行掌握，即可实现２ｋ／４ｋ／８ｋ变换的通用。

５、存储器的掌握

因ＦＦＴ是为时序电路而设计的，因此，掌握旗子暗记要包括时序的掌握旗子暗记及存储器的读写地址，并产生各种赞助的指示旗子暗记。
同时在打算模块的内部，为担保高速，所有的乘法器都须始终保持较高的利用率。
这意味着在每一个时钟来临时都要向这些单元输入新的操作数，而这统统都须要掌握旗子暗记的紧密合营。

为了实现ＦＦＴ的流形运算，在运算的同时，存储器也要吸收数据。
这可以采取乒乓ＲＡＭ的方法来完成。
这种办法决定了实现ＦＦＴ运算的最大韶光。
对付４ｋ操作，其吸收韶光为４０９６个数据周期，这样?煟疲疲缘淖畲笤怂闶奔渚褪牵矗埃梗陡鍪?据周期。
其余，由于输入数据因此一定的时钟为周期依次输入的，故在进行内部运算时，可以用较高的内部时钟进走运算，然后再存入ＲＡＭ依次输出。

为节省资源，可对存储数据ＲＡＭ采取原址读出原址写入的方法，即在进行下一级变换的同时，首先应将结果回写到读出数据的ＲＡＭ存贮器中；而对付ＲＯＭ，则应采取与运算的数据相对应的方法来读出存储器中旋转因子的值。
在２ｋ／４ｋ／８ｋ傅立叶变换中，要实现通用性，掌握器是最紧张的模块。
２ｋ、４ｋ、８ｋ变换具有不同的内部运算韶光和存储器地址，在设计中，针对不同的点数应设计不同的存储器存取地址，同时，在完成变换后，还要对开始输出有用旗子暗记的时候进行指示。

６、硬件的选择

本设计的硬件实现选用的是现场可编程门阵列(ＦＰＧＡ)来知足较高速率的须要。
本系统在设计时选用的是ＡＬＴＥＲＡ公司的ＳＴＲＡＴＩＸ芯片，该芯片中包含有ＤＳＰ单元，可以完成较为耗费资源的乘法器单元。
同时，该器件也包含有大量存储单元，从而可担保旋转因子的精度。
除了一些专用引脚外，ＦＰＧＡ上险些所有的引脚均可供用户利用，这使得ＦＰＧＡ旗子暗记处理方案具有非常好的Ｉ／Ｏ带宽。
大量的Ｉ／Ｏ引脚和多块存储器可使设计得到优胜的并行处理性能。
其独立的存储块可作为输入／事情存储区和结果的缓存区，这使得Ｉ／Ｏ可与ＦＦＴ打算同时进行。

在实现的韶光方面，该设计能在４０９６个时钟周期内完成一个４０９６点的ＦＦＴ。
若采取１０ＭＨｚ的输入时钟，其变换韶光在２００μｓ旁边。
而由于最新的ＦＰＧＡ利用了ＭｕｌｔｉＴｒａｃｋ互连技能，故可在２５０ＭＨｚ以下频率稳定地事情，同时，ＦＦＴ的实现韶光也可以大大缩小。

ＦＦＴ运算结果的精度与输入数据的位数及运算过程中的位数有关，同时和数据的表示形式也有很大关系。
一样平常来说，浮点办法比定点办法精度高。
而在定点打算中，存储器数据的位数越大，运算精度越高，利用的存储单元和逻辑单元也越多。
在实际运用中，应根据实际情形折衷选择精度和资源。
本设计通过ＭＡＴＬＡＢ进行仿真证明：实在现的变换结果与ＭＡＴＬＡＢ工具箱中的ＦＦＴ函数比较，信噪比可以达到６５ｄｂ以上，完备可以知足一样平常工程的实际运用哀求。

算法设计实现基于FPGA来讲是一个很主要的设计方向，FPGA的上风侧重于数据的并行打算和运行，可反复进行芯片的设计和察处；目前，行业内对FPGA+DSP设计方向及FPGA+ARM方向的工程师给予高新聘请招聘；这也解释一个问题，基于软件和硬件协同来开拓一个整体的项目已经是一个趋势。