Thinuna 音频信号的处理

2020-05-20 admin 598

一、音频信号处理过程

1. 发声

声音是物体振动产生的，声音是一种压力波。声音可以通过空气、液体和固体传播，且介质不同，传播的速度也不同。声音在传播中会产生能量。声音的传播需要物质，物理学中把这样的物质叫做介质，这个介质可以是空气，水，固体.当然在真空中，声音不能传播。声音在不同的介质中传播的速度也是不同的。

介质	速度	介质	速度
空气（15℃）	340m/s	空气（25℃）	346m/s
水（常温）	1500m/s	海水（25℃）	1530m/s
钢铁	5200m/s	冰	3160m/s
软木	500m/s	松木	3320m/s
尼龙	2600m/s	水泥	4800m/s

物理中声音是由物体振动发生的，正在发声的物体叫做声源。物体在一秒钟之内振动的次数叫做频率，单位是赫兹，字母Hz.人的耳朵可以听到20Hz-----20000Hz的声音.最敏感是1000Hz-----3000Hz之间的声音。人们以分贝为单位来表示声音的强弱，符号为dB。0分贝刚刚引起听觉。人们把超过听力的声音叫做超声波，把低于听力的声音叫做次声波。

2. 声电转换

将声信号转化为电信号的过程称为声电转换。声电转化器是一种将声音信号转为电信号的装置。由永久磁铁和可绕线圈组成，线圈与话筒上的膜片连在一起，随之一起振动，绕圈在永久磁铁的磁铁里振动。线圈中就产生感应电流，线圈的振动时就能感应到电流的大小和方向都变化，这就是实现了声信号到电信号的转换。

3. 抽样(模数转换)

模数转换就是将连续的模拟信号转化为离散的数字信号。模拟信号只有通过A/D转化为数字信号后才能用软件进行处理，这一切都是通过A/D转换器（ADC）来实现的。模数变换主要是对模拟信号进行采样，然后量化编码为二进制数字信号。

4. 量化(将数字信号用适当的数值表示)

所谓量化，就是把经过抽样得到的瞬时值将其幅度离散，即用一组规定的电平，把瞬时抽样值用最接近的电平值来表示。经过抽样的图像，只是在空间上被离散成为像素(样本)的阵列。而每个样本灰度值还是一个由无穷多个取值的连续变化量，必须将其转化为有限个离散值，赋予不同码字才能真正成为数字图像。这种转化称为量化。

在数字信号处理领域，量化指将信号的连续取值（或者大量可能的离散取值）近似为有限多个（或较少的）离散值的过程。量化主要应用于从连续信号到数字信号的转换中。连续信号经过采样成为离散信号，离散信号经过量化即成为数字信号。注意离散信号通常情况下并不需要经过量化的过程，但可能在值域上并不离散，还是需要经过量化的过程。信号的采样和量化通常都是由ADC实现的。

5. 编码(数据压缩)

编码是信息从一种形式或格式转换为另一种形式的过程也称为计算机编程语言的代码简称编码。用预先规定的方法将文字、数字或其它对象编成数码，或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。编码是信息从一种形式或格式转换为另一种形式的过程。

各种主流音频编码（或格式）的介绍：

PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

WAVE

这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的Decode，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得更好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

MP3编码

MP3是一种音频压缩技术，其全称是动态影像专家压缩标准音频层面3（Moving Picture Experts Group Audio Layer III），简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术，将音乐以1:10 甚至 1:12 的压缩率，压缩成容量较小的文件，而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。它是在1991年由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。用MP3形式存储的音乐就叫作MP3音乐，能播放MP3音乐的机器就叫作MP3播放器。

OGG编码

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案！OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。
Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质！Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件（目前这种软件还没有）的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。
和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

MPC 编码

MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络！竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

6. 传输

在电信中，传输是通过物理点对点或点对多点传输介质（有线，光纤或无线）发送和传播模拟或数字信息信号的过程。

通过传送者分派，为了别处接受的一种信号、消息、或者任何种类的信息。通过各种手段实现的信号传播，例如电报、电话、广播、电视，或者经由任意媒介电话传真、例如电线、同轴电缆、微波、光纤，或者无线电频率。

在一般信息论中传输被用于表示经由信道的信息通讯的整个过程。例如数据块或数据包，电话或电子邮件。传输技术和方案通常涉及物理层协议任务，例如调制，解调，线路编码，均衡，差错控制，比特同步和多路复用，但该术语还可能涉及更高层的协议任务，例如数字化模拟消息信号和数据压缩。数字信息或数字化模拟信号的传输被称为数字通信。

7. 解码(数据还原)

在计算机网络中，网络通过通信网将计算机互联以实现资源共享和数据传输的。当使用的通信网信号形式和传输设备的信号形式不一样时，就必须进行信号形式的转换。一般将在发送方进行的信号形式转换称为编码，接收方进行的信号形式的转换成为解码。

音频编解码框图

将模拟的、连续的声音波形数字化 ( 离散化 ) ，可以得到数字音频。数字音频是把模拟的声音信号通过采样、量化和编码过程转变成数字信号，然后再进行记录、传输及其他加工处理；重放时再将这些记录的数字音频信号还原为模拟信号，获得连续的声音。

采用数字音频技术可以避免模拟信号容易受噪声和干扰的影响，可以扩大音频的动态范围，可以利用计算机进行数据处理，可以不失真地远距离传输，可以与图像、视频等其他媒体信息进行多路复用，以实现多媒体化和网络化。

图 1给出了音频编解码的一般模型。每个子带信号都在经过定标处理后被重新进行量化，量化编码过程引入的量化噪声不能超过已确定的对应子带的掩蔽门限。因此量化噪声频谱与信号频谱进行了动态自适应。“比例因子”和各子带所使用量化器的相关信息与编码后的子带样值一同进行传输，而解码器可以在不了解编码器如何确定编码所需信息的情况下对码流进行解码。这降低了解码器的复杂度，并为编码器的选择和解码器开发提供了很大的灵活性。

图1.png

图1

这里主要涉及的技术有： A/D 和 D/A 转换、压缩编码技术、数字信号处理技术、信道编码和调制技术。

音频编码过程

音频信号数字化

信号的数字化就是将连续的模拟信号转换成离散的数字信号，一般需要完成采样、量化和编码三个步骤，如图 2 所示。采样是指用每隔一定时间间隔的信号样本值序列来代替原来在时间上连续的信号。量化是用有限个幅度近似表示原来在时间上连续变化的幅度值，把模拟信号的连续幅度变为有限数量、有一定时间间隔的离散值。编码则是按照一定的规律，把量化后的离散值用二进制数码表示。上述数字化的过程又称为脉冲编码调制(Pulse Code Modulation) ，通常由 A/D 转换器来实现。

图2.png

图2

数字音频信号经过处理、记录或传输后，当需要重现声音时，还必须还原为连续变化的模拟信号。将数字信号转换成模拟信号为 D/A 变换。

数字音频的质量取决于采样频率和量化位数。采样频率越高，量化位数越多，数字化后的音频质量越高。

音频采样

采样就是从一个时间上连续变化的模拟信号取出若干个有代表性的样本值，来代表这个连续变化的模拟信号。一个在时间和幅值上都连续的模拟音频信号的函数表为 x(t), 采样的过程就是在时间上将函数 x(t) 离散化的过程。一般的采样是按均匀的时间间隔进行的。设这一时间间隔为 T ，则取样后的信号为 x(nT) ， n 为自然数。

根据奈奎斯特采样定理：要从采样值序列完全恢复原始的波形，采样频率必须大于或等于原始信号最高频率的 2倍。设连续信号 x(t) 的频谱为 x(W) ，以采样间隔时间 T 抽样得到离散信号 x(nT) ，如果满足 │ W │ ≤ Wc 时，其中 Wc 是截止频率，即 T ≤ l/2Wc 时，可以由 x(nT) 完全确定连续信号 x(t) 。

当采样频率为 1 ／ 2T 时，即 WN=Wc=1/2T 时，称 WN 为奈奎斯特采样频率。

音频量化
采样只解决了音频波形信号在时间坐标(即横轴 ) 上把一个波形切成若干个等分的数字化问题，但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化” 。

量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢 ? 我们还是采取二进制的方式，以８位 (bit) 或 16 位 (bit) 的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为2^8个量化等级，用以记录其幅度大小,其精度为音频信号最大振幅的 1/256 。量化位数越多，量化值越接近于采样值，其精度越高，但要求的信息存储量就越大。

存储数字音频信号的比特率为：

I=N·Ws

其中的 Ws 是采样率， N 是每个采样值的比特数。

要减小比特率 I ，在 Ws 已经确定的情况下，只能去减少 N 的值。 N 的值降低会导致量化的精度降低， N 的值增加又会导致信息存储量的增加。因此在编码时就需要合理地选择 N 的值。

均匀量化就是采用相等的量化间隔进行采样，也称为线性量化。用均匀量化来量化输入信号时，无论对大的输入信号还是小的输入信号都一律采用相同的量化间隔。因此，要想既适应幅度大的输入信号，同时又要满足精度高的要求，就需要增加采样样本的位数。

非均匀量化的基本思想是对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，这样就可以在满足精度要求的情况下使用较少的位数来表示。其中采样输入信号幅度和量化输出数据之间一般定义了两种对应关系，一种称为 u 律压缩算法，另一种称为 A 律压缩算法。

采用不同的量化方法，量化后的数据量也就不同。因此说量化也是一种压缩数据的方法。

8. 反抽样(数模转换)

数模转换就是将离散的数字量转换为连接变化的模拟量。

主要技术指标如下：

分辩率（Resolution）指数字量变化一个最小量时模拟信号的变化量，定义为满刻度与2n的比值。分辩率又称精度，通常以数字信号的位数来表示。
转换速率（Conversion Rate）是指完成一次从模拟转换到数字的AD转换所需的时间的倒数。积分型AD的转换时间是毫秒级属低速AD，逐次比较型AD是微秒级属中速AD，全并行/串并行型AD可达到纳秒级。采样时间则是另外一个概念，是指两次转换的间隔。为了保证转换的正确完成，采样速率（Sample Rate）必须小于或等于转换速率。因此有人习惯上将转换速率在数值上等同于采样速率也是可以接受的。常用单位是ksps和Msps，表示每秒采样千/百万次（kilo / Million Samples per Second）。
量化误差（Quantizing Error）由于AD的有限分辩率而引起的误差，即有限分辩率AD的阶梯状转移特性曲线与无限分辩率AD（理想AD）的转移特性曲线（直线）之间的最大偏差。通常是1 个或半个最小数字量的模拟变化量，表示为1LSB、1/2LSB。
偏移误差（Offset Error）输入信号为零时输出信号不为零的值，可外接电位器调至最小。
满刻度误差（Full Scale Error）满度输出时对应的输入信号与理想输入信号值之差。
线性度（Linearity）实际转换器的转移函数与理想直线的最大偏移，不包括以上三种误差。
其他指标还有：绝对精度（Absolute Accuracy），相对精度（Relative Accuracy），微分非线性，单调性和无错码，总谐波失真（Total Harmonic Distotortion缩写THD）和积分非线性。

模数变换方法

采样方法应满足采样定理，适当加入抗混迭滤波器；
宽带化，如在中频对模拟信号进行数字化，信号带宽通常在十几到几十兆赫兹；
保持较高的信号动态范围；
高采样率，应尽量在中频或射频工作，以尽可能保证整机的软件化处理；
减少量化噪声。

9. 电声转换

将电信号转化为声信号的过程称为电声转换。电声转换器是把声能转换成电能或电能转换成声能的器件，电声工程中的传声器、扬声器和耳机是最典型的电能、声能之间相互变换的器些器件统称为电声转换器，亦称电声换能器。

换能器工作频率的设计依据涉及传声媒质对超声波能量衰减的因素、检测目标（如缺陷）对超声波的反射反射反射反射特性、传声媒质的本底噪声以及辐射阻抗等等。决定换能器工作频率的影响因素有很多，如激励用电信号的频率、换能器的组装结构设计、工作原理的应用范围与限制条件、换能元件自身的材料物理特性等等。换能器的许多重要性能，如指向性、发射声功率、接收灵敏度以及声场特性等都直接受其工作频率的影响。

10. 人耳听声

人耳对不同强度、不同频率声音的听觉范围称为声域。在人耳的声域范围内，声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音高、音色可以在主观上用来描述具有振幅、频率和相位三个物理量的任何复杂的声音，故又称为声音“三要素”；

响度，又称声强或音量，它表示的是声音能量的强弱程度，主要取决于声波振幅的大小。声音的响度一般用声压（达因/平方厘米）或声强（瓦特/平方厘米）来计量，声压的单位为帕(Pa），它与基准声压比值的对数值称为声压级，单位是分贝（dB）。

音高

音高也称音调，表示人耳对声音调子高低的主观感受。客观上音高大小主要取决于声波基频的高低，频率高则音调高，反之则低，单位用赫兹(Hz）表示。主观感觉的音高单位是“美”，通常定义响度为40方的 1kHz纯音的音高为1000美。赫兹与“美”同样是表示音高的两个不同概念而又有联系的单位。

11. 音色

音色又称音品，由声音波形的谐波频谱和包络决定。声音波形的基频所产生的听得最清楚的音称为基音，各次谐波的微小振动所产生的声音称泛音。单一频率的音称为纯音，具有谐波的音称为复音。每个基音都有固有的频率和不同响度的泛音，借此可以区别其它具有相同响度和音调的声音。声音波形各次谐波的比例和随时间的衰减大小决定了各种声源的音色特征，其包络是每个周期波峰间的连线，包络的陡缓影响声音强度的瞬态特性。声音的音色色彩纷呈，变化万千，高保真（Hi— Fi）音响的目标就是要尽可能准确地传输、还原重建原始声场的一切特征，使人们其实地感受到诸如声源定位感、空间包围感、层次厚度感等各种临场听感的立体环绕声效果。

二、音频的关键参数详解

1、声道数：声道数是音频传输的重要指标，现在主要有单声道和双声道之分。双声道又称为立体声，在硬件中要占两条线路，音质、音色好，但立体声数字化后所占空间比单声道多一倍。

2、量化位数：量化位是对模拟音频信号的幅度轴进行数字化，它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算，一般的量化位数为8位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。

3、采样频率：采样频率这个专业术语是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论(如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号)。根据该采样理论，CD激光唱盘采样频率为44kHz，可记录的最高音频为22kHz，这样的音质与原始声音相差无几，也就是我们常说的超级高保真音质。通信系统中数字电话的采用频率通常为8kHz，与原4k带宽声音一致的。

补充：声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。

采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，采样频率越高，声音的质量也就越好，声音的还原也就越真实，但同时它占的资源比较多。由于人耳的分辨率很有限，太高的频率并不能分辨出来。22050 的采样频率是常用的，44100已是CD音质，超过48000或96000的采样对人耳已经没有意义。这和电影的每秒24帧图片的道理差不多。如果是双声道(stereo)，采样就是双份的，文件也差不多要大一倍。

根据奈奎斯特采样理论，为了保证声音不失真，采样频率应该在40kHz左右。这个定理怎么得来，我们不需要知道，只需知道这个定理告诉我们，如果我们要精确的记录一个信号，我们的采样频率必须大于等于音频信号的最大频率的两倍，记住，是最大频率。

在数字音频领域，常用的采样率有：

8000 Hz - 电话所用采样率，对于人的说话已经足够

11025 Hz - 电话所用采样率

22050 Hz - 无线电广播所用采样率

32000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率

44100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD，SVCD，MP3）所用采样率

47250 Hz - 商用 PCM 录音机所用采样率

48000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率

50000 Hz - 商用数字录音机所用采样率

96000 Hz或者 192000 Hz - DVD-Audio、一些 LPCM DVD 音轨、BD-ROM（蓝光盘）音轨、和 HD-DVD （高清晰度 DVD）音轨所用所用采样率

4、码率

比特率也叫码率，指音乐每秒播放的数据量，单位用bit表示，也就是二进制位。 bps就是比特率。b就是比特（bit），s就是秒（second），p就是每（per），一个字节相当于8个二进制位。也就是说128bps的4分钟的歌曲的文件大小是这样计算的(128/8)*4*60=3840kB=3.8MB，1B（Byte）=8b（bit），一般mp3在128比特率左右为益，也大概在3-4 BM左右的大小。

在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的 WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2Kbps。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

双声道的PCM编码的音频信号，1秒钟需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低采样指标是不可取的，因此专家们研发了各种压缩方案。最原始的有DPCM、ADPCM，其中最出名的为MP3。所以，采用了数据压缩以后的码率远小于原始码。

采样率为44.1HZ，采样精度为16位的双音频，你可以算出比特率是44100*16*2bps，每秒的音频数据是固定的44100*16*2/8 字节

Thinuna 音频信号的处理

English

友情链接

站内搜索

网站地图

使用条款

在线反馈