烧客音乐论坛-发烧直到底,来者都是客!

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 33|回复: 6

[技术讨论] 【转帖】DSD vs PCM:迷思与真相

[复制链接]
发表于 2019-7-11 11:31:56 | 显示全部楼层 |阅读模式

马上注册,结交更多烧友,大家一起分享交流,快心快哉。

您需要 登录 才可以下载或查看,没有帐号?快速注册

x
本帖最后由 trey 于 2019-7-11 17:55 编辑

-----此为转载,文章来源煎蛋网-----

DSD Vs PCM:迷思与真相

原文链接:https://www.mojo-audio.com/blog/dsd-vs-pcm-myth-vs-truth/
作者:Benjamin Zwickel
翻译:Aristrotle
导语
直接比特流数字(Direct Stream Digital,DSD)已经成了高端音频领域里举足轻重的东西。简化的编码与解码方式,以及超高采样频率,保证了它举世无双的表现。这是我们一直期待的产物,亦或只是市场炒作?这篇文章用技术事实为您一一破解那些营销噱头。我(指原作者,下同)将会解释什么时候DSD具有优势,什么时候又是PCM(pulse-code modulation,脉冲编码调制)更好。

如果你对文中的驳论心存怀疑,请任意检查文末给出的参考文献,它们是由众多诸如Dan Lavry的录音工程师,以及诸如Antelope Auduio的录音设备制造企业所创作的。

如果你不想接受一堂历史课,也不想啃一大堆技术资料,你可以直接跳到总结部分,我在那里列出了所有要点。


一段简史
在1857年,édouard-Léon Scott de Martinville发明了可以逼真地记录声波的留声机。在1877年早期,Charles Cros设计了一种类似于逆照相蚀刻过程的方法,即造出可被唱针追踪的沟槽,唱针产生的振动将被传导到振膜上,从而制造出声波。

在1877年晚期,Thomas Edison参考Cros的理论发明了圆筒留声机,使得音乐爱好者们第一次能够在家中体验录好的音乐。你能够想象一个现代版的圆筒留声机吗?正切轨道…没有弧度问题…没有滑动问题。一个完美无瑕的设想!


                               
登录/注册后可看大图

在1887年,Emile Berliner发明了技术上稍逊的唱盘,但由于盘片的制造成本更低,更适于摆放在商店的展示柜里,并且可以容纳更大的封面和注释,唱盘成了工业标准。音乐录制工业一段长长的“使用便利性和利润最大化比音质最优更重要”的历史就这样开始了。

数字革命也并没有什么不同。1979年,Philips和Sony在新的数字格式标准上展开合作,Philips想要直径20cm的碟片,但Sony坚决要求能够在更小的便携设备上播放的12cm碟片。在1980年,他们公布了数字音乐光盘规格标准红皮书 (the Red Book CD-DA standard),面向大众市场的数字音乐从此诞生了。早期数字录音工业中有很多人开玩笑称CD的意思是“compromised disk“(妥协的碟片)。

在80年代初,当数字录音变得唾手可得时,众多录音工作室纷纷从模拟向数字转变以节省资金。对录音工作室来说,数字录音需求的设备更便宜,录制和存档所需的空间更小,并且使得后期处理中的混音和编辑曲目更容易。对顾客来说,反而并没有多少好处。大多数早期的数字录音都是以相对较低的解析度生产的, 听着很容易疲劳,甚至让你想把耳朵扯掉。


                               
登录/注册后可看大图

从PCM到DSD的转换也是一样的道理。在90年代初,索尼想要一种面向未来的且更便宜的媒介来储存他们的模拟母带。1995年,他们断定存储直接从模拟到数字的1位(bit)信号将允许他们输出到任何可以想见的消费级数字格式(哈哈,稍后我会解释Sony是怎么因为决定这个栽跟头的)。这种新的1位技术是通过从Crystal的1位2.8Mhz 比特流DAC(数字模拟转换器,Digital to analog converter)芯片上的监听接口输出实现的。

随后,关于DSD及Sony同Philips合作研发SACD(Super Audio Compact Disc)格式的风声传到了Sony顾客那里。当然,从SACD被构思出来到最终上市的时候,DAC芯片制造商已经能造出支持拥有比64fs更高的128fs采样率(又叫双倍率DSD),比1位解析度更高的5位位深的格式的芯片了。如果SACD的格式采用DSD128而不是DSD64,采用5位而不是1位,它的表现将有巨大飞跃。可惜了。

早在DVD、SACD或者DSD格式被开发出来之前,比特流DAC芯片就作为R-2R多位DAC芯片的低成本替代方案被推向消费市场了。比特流DAC芯片内置有能将PCM转码为DSD,再转换成模拟信号的算法,这样做的结果是牺牲保真度换来了很大的成本节约。

在某种程度上是比特流DAC技术使得7.1声道嵌入视频格式成为可能,同时还使得电子设备制造商能将装在小机箱里、配置廉价供电器的DVD播放器卖出低于$70的价格。音质至上主义者再一次完败了。

相比之下,R-2R DAC芯片不仅在成本上显著高于单比特DAC芯片,而且需要更大更复杂的供电器。如果你打算制造使用R-2R技术的7.1声道CD/DVD/SACD播放器,成本将是比特流技术的数倍,体积也将是它的数倍。这显然不是大众消费者想要的。

在这些因素的作用下,音乐录制工业一次又一次地决定抛弃音质至上主义者以追求利润最大化和吸引最广泛的顾客群。历史课到此结束。

 楼主| 发表于 2019-7-11 11:34:46 | 显示全部楼层
本帖最后由 trey 于 2019-7-11 11:37 编辑

DSD技术vs PCM技术

市售的PCM录音位深为16位或24位,采样率在44.1KHz到192KHz之间。最常见的格式是红皮书标准的CD,位深16,采样率44.1KHz。市售的DSD录音位深为1位,采样率为2.8224MHz。这种被用在SACD上的格式也叫DSD64。

还有一些像DSD128、DSD256和DSD512这样更现代的,解析度更高的DSD格式,我稍后会详细说明。这些格式主要被用在录音工作室里,只占到消费市场的很小一部分。

尽管DSD和PCM的解析度不能直接比较,仍然有很多专家尝试了。其中一种估算显示1位2.8224MHz的DSD64 SACD解析度约等于20位96KHz的PCM。另一种估算显示1位2.8224MHz的DSD64 SACD解析度等于20位141.12KHz PCM或者24位117.6KHz PCM。

换句话说DSD64 SACD的解析度比16位44.1KHz的红皮书标准CD更高,大致与24位96KHz的PCM录音相等,但没有24位192KHz PCM录音高。

DSD和PCM都是“量子化的”,这意味着模拟信号需要被近似为数值。DSD和PCM都有量化误差和线性误差,都有需要过滤的量化噪声。换句话说,它们都不是完美的。

PCM 以均匀的时间间隔 (类似于方格纸) 对模拟信号的振幅进行编码, 并且每个样本在级数范围内被量化为最接近的值。级数的范围基于录音的位深。16位录制有65536个级数, 20 位录音有1048576个级数, 24 位录音有16777216个级数。

位深越大,采样率越高,解析度就越高。因此20位96KHz录音的解析度大约是16位44.1KHz录音的33倍。这差距可不小。那为什么24位96KHz录音听起来只比16位44.1KHz的红皮书标准CD好一点点?答案将在后文中揭晓。

DSD使用脉冲密度调制(pulse-density modulation)对音乐进行编码,脉冲密度调制是一连串单比特值,采样率为2.8224MHz。 这相当于红皮书标准CD 44.1KHz采样率的64倍,但每次采样的解析度仅为CD 16位的1/32768。


                               
登录/注册后可看大图


                               
登录/注册后可看大图


在上面这两个双轴量化的PCM,以及单轴量化的DSD的图示中,你可以看出为什么DSD重放的精确度相比比PCM很大程度上更依赖于时钟精度。 当然,每个位电压的精度在DSD中与PCM同样重要,因此参考电压的调节在这两种类型的转换器中同等重要。 显然,在解析度是市售DSD64 SACD和24位192KHz PCM几倍的录音过程中,其时钟精度要求远比重放时的高。

还有其他使用更高的采样率的DSD格式,比如DSD128(又叫双倍率DSD),采样率为5.6448MHz; DSD256(又叫四倍率DSD),采样率为11.2896MHz; 和DSD512(又叫八倍率DSD),采样率为22.5792MHz。 所有这些更高解析度的DSD格式都是供录音工作室使用而非消费者使用,尽管有一些不起眼的公司以这些格式销售录音。

请注意,双倍率、四倍率和八倍率 DSD可以被44.1KHz和48KHz整数倍等分,以向下采样至DSD64 SACD及44.1KHz红皮书标准CD(44.1KHz的倍数)或96KHz及192KHz高清 PCM格式(48KHz的倍数)。

当录音工作室将48KHz倍数的格式转换为44.1KHz倍数的格式时会引入量化误差,反之亦然。 遗憾的是,老录音的24位192KHz高清重制版本往往是来自DSD64母带的,比如索尼和其他公司在90年代中期用于存档模拟母版的那些。 请注意,可以从DSD64母带转制的最佳HD PCM格式为24位88.2KHz。 任何超过88.2KHz的采样率或者可被48KHz整除的采样率都必须进行插值(不好)。 但消费者要求所有他们的旧爱的24位192KHz版本,于是,在明知道后果的情况下,唱片公司仍然这么做了。
 楼主| 发表于 2019-7-11 11:36:44 | 显示全部楼层
本帖最后由 trey 于 2019-7-11 11:40 编辑

难题

PCM和DSD都有三个主要缺陷:量化误差、量化噪声和非线性。

有好几种情况能造成量化误差。最普遍的一种是早期数字录音过低的解析度。想象一下方格纸上的交叉点。你不能把振幅量化为比1比特更小的值,且无法量化采样间隔上的点。你只能把模拟信号量化为位深和采样率交叉点的值。当模拟型号的值落在两个可量化值之间时,数字录音最终重建了一个音量更低或更高,频率更慢或更快的声音,进而扭曲原始音乐的节奏,曲调和强度。这会造成不自然的怪异的的谐波的产生,导致早期数字录音往往与生硬、易使人疲劳联系在一起。请注意下图中蓝色实线代表音乐实际的波形,黑点代表最接近的量化值。

                               
登录/注册后可看大图


尽管现在的采样率已经高到足以欺骗人耳,量化误差仍然会在从一种格式转换成另一种时显现。举个例子,时间回溯到1995年,当Sony计划用DSD64转存他们的模拟母带库时,他们错误地认为DSD64母带经得起时间考验,并且能够转录成任何消费级的格式。事实上,这些母带只能正确地转录成采样率能被44.1KHz整除的格式。于是现在所有从DSD64母带转录的96KHz及192KHz录音都有量化误差。

这正是录音娱乐工业中众多使我恼怒的事情中的一件。如果44.1KHz标准被设计出来是为了把折叠失真转移到不那么重要的频段上,那为什么他们又开始用48KHz的倍数了?!?!?!?只要把现在的消费级高清音频格式定为88.2KHz和176.4KHz,就可以避开这个烂摊子了。他们甚至已经发明了DXD,一个24位352.8KHz的录音工作室用格式。是哪个搞七廿三的白痴硬要把96KHz和192KHz牵涉进高清音频工作里来的?!?!?!?

使用48KHz倍数的实际原因是与视频同步最佳。这就是为什么电影的音轨以48KHz倍数的采样率录制,例如嵌入7.1声道DVD和Blu-Rays中的24位96KHz格式音频。 但是,由于超过90%的音乐录音是以44.1KHz采样率的红皮书标准CD或DSD64 SACD出售的,因此提供96KHz或192KHz的高清音乐,而不是最合适的88.2KHz和176.4KHz,是相当荒谬的。 然而不了解这一切的顾客错误地相信了唱片公司的宣传,认为192KHz比176.4KHz更好。

量化噪声是无法避免的。无论用什么格式数字化,都会产生超声波伪影,位深越多,底噪就越低,每多1位,底噪就降低大约6dB。由此可以想见,1位DSD会有显著高于16位PCM的超声噪声。而PCM则会在采样频率上出现明显的噪声。这就是为什么Sony和Philips在CD红皮书标准里将采样率定为超过人耳听域上限20KHz两倍的44.1KHz。

由于量化噪声存在于PCM录音的采样频率附近,一段44.1KHz录音的量化噪声比人耳的听域上限20KHz高一个八度。这种量化噪声需要被滤除,因此所有DAC在输出端都有一个低通滤波器。因为量化噪声仅比可听度高一个八度,所以使用的滤波器必须具有非常陡的斜率,以免滤除我们想要的高频。 这些陡峭倾斜的低通数字滤波器通常被称为“砖墙”滤波器。

尽管你时常听说很多关于早期红皮书CD播放器的“砖墙”滤镜会导致可被听到的失真,但事上这并不是极高频声音不自然的的原因。早期数字录音中大多数生硬,刺耳,不自然的极高频更多地与供电及录音过程中的缺陷有关,而不是“砖墙”滤波器。很抱歉成为戳破你的泡泡人,与许多发烧友所相信的不同,只有不到千分之一的人能像儿童一样听到超过20KHz的声音,更是几乎没有40岁以上的人能听到超过15KHz的声音。


                               
登录/注册后可看大图

对于DSD64则是另一种情况:从25KHz开始,量化噪声急剧上升,需要更复杂的滤波器及降噪算法。当你使用简单的低通滤波器过滤DSD64的输出时,结果是相位失真及听觉范围内的一些令人相当讨厌的失真。解决方案是能将噪声移至较难听到的频段的降噪算法,或者更高的采样率。这就是DSD128(又叫双倍率DSD)和DSD256(又叫四倍率DSD)格式应运而生的原因。这也是诸如JRiver的高级播放器软件提供双倍率DSD输出的原因。使用过采样DSD64至DSD128或DSD256的播放软件,可使数字失真高于听觉范围八度,从而让使用更高级的降噪算法和更保守的数字滤波器成为可能,进而显着改善音质表现。请注意,极高的采样频率是DSD比PCM更注重超精准时钟的原因。

抖动(Jitter)的定义是由不准确的时钟引起的回放频率的不一致。这将导致音乐可闻的的节奏和曲调失真。不协调的工作频率往往会产生具有不自然的奇次谐波的模拟波形。 这导致通常称为“数码味”的易使人疲劳的负面特质。请注意下面两幅图:抖动是水平时间轴的不一致,而非线性是垂直振幅轴的不一致。 不过,还有些人会认为任一轴的不一致都属于非线性。


                               
登录/注册后可看大图

                               
登录/注册后可看大图

抖动也可能是因为转换器的时钟速率不一致,非线性则可能是因为转换器每一步的电压不一致。这就是我们经常听到“超级时钟”和“毫微微时钟”这些概念的原因。时钟越精确,模拟输出就越准确。 这也是为什么超高性能PCM转换器能够在零交叉点(zero crossing)调整最高有效位(MSB,most-significant-bit)的电压以优化线性度的原因。 问题在于,除了大家都在吹嘘的超级时钟,就没有办法优化MSB电压了吗?


 楼主| 发表于 2019-7-11 11:47:29 | 显示全部楼层
本帖最后由 trey 于 2019-7-11 13:34 编辑

无标题 1.gif
无标题 2.gif
无标题 3.gif
 楼主| 发表于 2019-7-11 11:53:12 | 显示全部楼层
本帖最后由 trey 于 2019-7-11 13:54 编辑

无标题 4.gif 无标题 5.gif
无标题 6.gif
 楼主| 发表于 2019-7-11 21:02:17 | 显示全部楼层
后面的内容不知道为什么显示有不良信息(无力吐槽),只好改成贴图上传,见谅
发表于 2019-7-11 23:58:15 | 显示全部楼层
trey 发表于 2019-7-11 21:02
后面的内容不知道为什么显示有不良信息(无力吐槽),只好改成贴图上传,见谅

感谢分享!!
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

发布主题 快速回复 返回列表 联系我们

关于我们|手机版| 烧客网|苏ICP备17021493-1号|閸溿劏顕楃广垺婀囩拠椋庡仯閸? title=

Powered by Discuz! X3.4 © 2001-2017 Comsenz Inc.

声明:本站资源来自网盘分享,仅供试听,勿作商用,请支持正版!

如果您认为本站相关页面侵权,请Email:[email protected]

快速回复 返回顶部 返回列表