语音信号分帧存储设备(语音信号加窗分帧是起什么作用)
一、语音信号处理中怎么理解分帧
语音属于准稳态信号,即短时平稳。这个短时长一般为10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对信号进行分帧处理。
针对语音数据的频谱分析视图,叫语谱图。语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。由于是采用二维平面表达三维信息,所以能量值的大小是通过颜色来表示的,颜色深,表示该点的语音能量越强。窄带语谱图有良好的频率分辨率及较差的时间分辨率;而宽带语谱图具有良好的时间分辨率及较差的频率分辨率。窄带语谱图中的时间坐标方向表示的是基音及各次谐波;而宽带语谱图给出的共振峰频率及清辅音的能量汇集区。语谱图上不同的黑白程度形成不同的纹路,我们称为“声纹”。条纹的地方实际是颜色深的点聚集的地方,随时间延续,就延长成条纹,也就是表示语音中频率值为该点横坐标值的能量较强,在整个语音中所占比重大,那么相应影响人感知的效果要强烈得多。
二、语音信号加窗分帧是起什么作用
加窗和分帧都是语音信号提取特征的预处理阶段,先分帧,后加窗,再做快速傅里叶变换。
分帧:
简而言之,语音信号整体上不稳定,但局部上可以看作是稳定的,在以后的语音处理中,需要输入一个稳定的信号,所以需要对整个语音信号进行帧处理,即将其分割成多个片段。
在10-30ms范围内,可以认为信号是稳定的。一般以不少于20毫秒为帧,约1/2的时间作为帧移位帧,帧移位是指相邻两帧之间的重叠区域,以避免相邻两帧的变化。
加窗:
按上述方法加窗后,每一帧的开始和结束都会出现间断,因此分割的帧越多,与原始信号的误差就越大,加窗就是为了解决这个问题,使成帧后的信号变得连续,并且每一帧都会表现出周期函数的特性,在语音信号处理中,通常会增加汉明窗。
扩展资料
语音信号模型
一、激励模型
1、浊音激励
气流在通过绷紧声带时,冲激声带产生振动,使声门处形成周期性的脉冲串,并用它去激励声道。由于脉冲串类似于斜三角形的脉冲,故以基音周期为周期的单位取样序列串作为激励。
2、清音激励
声带松弛而不振动,气流通过声门直接进入声道。由于发清音时,声道被阻碍形成湍流,可将激励模拟成随机白噪声。
二、声道模型
1、声管模型
将声道视为由多个不同截面积的管子串联而成的系统。
2、共振峰模型
声道视为一个谐振腔,共振峰就是这个腔体的谐振频率。
三、辐射模型
在发音腔道内形成的气流经由嘴唇端辐射出来到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性常用一个一阶的数字高通滤波器来模拟。
三、语音信号处理中怎么理解分帧,为什么
语音信号处理常常要达到的一个目标,就是弄清楚语音中各个频率成分的分布。做这件事情的数学工具是傅里叶变换。傅里叶变换要求输入信号是平稳的,当然不平稳的信号你想硬做也可以,但得到的结果就没有什么意义了。而语音在宏观上来看是不平稳的——你的嘴巴一动,信号的特征就变了。但是从微观上来看,在比较短的时间内,嘴巴动得是没有那么快的,语音信号就可以看成平稳的,就可以截取出来做傅里叶变换了。这就是为什么语音信号要分帧处理,截取出来的一小段信号就叫一「帧」。如下图:这段语音的前三分之一和后三分之二明显不一样,所以整体来看语音信号不平稳。红框框出来的部分是一帧,在这一帧内部的信号可以看成平稳的。
那么一帧有多长呢?帧长要满足两个条件:从宏观上看,它必须足够短来保证帧内信号是平稳的。前面说过,口型的变化是导致信号不平稳的原因,所以在一帧的期间内口型不能有明显变化,即一帧的长度应当小于一个音素的长度。正常语速下,音素的持续时间大约是 50~200毫秒,所以帧长一般取为小于 50毫秒。从微观上来看,它又必须包括足够多的振动周期,因为傅里叶变换是要分析频率的,只有重复足够多次才能分析频率。语音的基频,男声在 100赫兹左右,女声在 200赫兹左右,换算成周期就是 10毫秒和 5毫秒。既然一帧要包含多个周期,所以一般取至少 20毫秒。这样,我们就知道了帧长一般取为 20~ 50毫秒,20、25、30、40、50都是比较常用的数值,甚至还有人用 32(在程序猿眼里,这是一个比较「整」的数字)。
加窗的目的是让一帧信号的幅度在两端渐变到 0。渐变对傅里叶变换有好处,可以提高变换结果(即频谱)的分辨率,具体的数学就不讲了。加窗的代价是一帧信号两端的部分被削弱了,没有像**的部分那样得到重视。弥补的办法是,帧不要背靠背地截取,而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移,常见的取法是取为帧长的一半,或者固定取为 10毫秒。
频谱上就能看出这帧语音在 480和 580赫兹附近的能量比较强。语音的频谱,常常呈现出「精细结构」和「包络」两种模式。「精细结构」就是蓝线上的一个个小峰,它们在横轴上的间距就是基频,它体现了语音的音高——峰越稀疏,基频越高,音高也越高。「包络」则是连接这些小峰峰顶的平滑曲线(红线),它代表了口型,即发的是哪个音。包络上的峰叫共振峰,图中能看出四个,分别在 500、1700、2450、3800赫兹附近。有经验的人,根据共振峰的位置,就能看出发的是什么音。对每一帧信号都做这样的傅里叶变换,就可以知道音高和口型随时间的变化情况,也就能识别出一句话说的是什么了。
四、语音信号分帧的帧移是什么意思
就是前后两帧的重叠量,即前一帧尾部与后一帧头部的重叠量,一般默认为一半。至于什么要有帧移呢?答:帧移后的每一帧信号都有上一帧的成分,防止两帧之间的不连续。语音信号虽然短时可以认为平稳,但是由于人说话并不是间断的,每帧之间都是相关的,加上帧移可以更好地与实际的语音相接近。但是我本人在做毕业设计进行基频提取时,为了简化前期处理算法,提高效率,完全忽略了帧移的问题,结果发现并无大碍。感觉帧移的概念有点废