












最新內(nèi)容
http://www.86xian.com 發(fā)布日期:2016-09-19 中關(guān)村多媒體創(chuàng)意產(chǎn)業(yè)園 關(guān)注度:
http://www.bjmmedia.com.cn
人們說(shuō):VR 的寒冬來(lái)了。最近看到一句非常好的描述:“一度承載著創(chuàng)業(yè)者和投資人太多期待與熱情的 VR 行業(yè),經(jīng)歷了如過(guò)山車般的一年。”
核心技術(shù)瓶頸突破之前,VR 還將在泡沫收縮過(guò)后進(jìn)行理智思考。而 3D 音頻,作為 VR 產(chǎn)業(yè)的關(guān)鍵性技術(shù)節(jié)點(diǎn),值得在今天被關(guān)注。
在百度上搜索 “VR 寒冬” 有 1,660,000 個(gè)結(jié)果。
《資本變臉:6 個(gè)月,VR 從狂歡到慘淡》(極客公園, 2016 年 09 月 07 日),《吸引了無(wú)數(shù)資本和創(chuàng)業(yè)者的 VR 行業(yè),似乎已進(jìn)入寒冬》(中國(guó)企業(yè)家,2016 年 08 月 26 日),《 VR 創(chuàng)業(yè)公司的寒冬來(lái)了?聽(tīng)聽(tīng)資本大咖怎么說(shuō)!》(網(wǎng)易新聞,2016 年 05 月 27日),《小心被套! VR 將迎來(lái)寒冬》(搜狐新聞,2016 年 05 月 11 日)……
人們猶記得 2015 年下半年到 2016 年年初的 VR 熱:從創(chuàng)業(yè)者到投資人,大家都對(duì) VR 有著無(wú)限的熱情與希望。而從計(jì)算機(jī)背景出生轉(zhuǎn)行做 VR 的人真不在少數(shù):他們正是看準(zhǔn)了這塊 “熱土”, 從大公司走出,一頭鉆進(jìn) VR 行業(yè)。
行業(yè)缺少優(yōu)質(zhì)標(biāo)的,關(guān)鍵性技術(shù)節(jié)點(diǎn)遠(yuǎn)未突破,VR 如同一個(gè)牙牙學(xué)語(yǔ)的嬰兒,尚在襁褓之中,遠(yuǎn)未成熟。與其說(shuō) VR 凜冬已到,不如說(shuō)之前的泡沫正在合理地被擠破。
這里的 “關(guān)鍵性技術(shù)節(jié)點(diǎn)” 其中之一,就是空間音頻技術(shù)。在今天,人們更愿意叫它 3D 音頻。
蘋果音樂(lè)和 VR 工作室 Vrse 聯(lián)手為 U2 樂(lè)隊(duì)制作了一段 VR 音樂(lè)視頻《Song for Someone》。圖為 MV 片段中 U2 在空無(wú)一人的多倫多體育場(chǎng)的演唱。
正如著名 VR 制作公司 Jaunt 的音頻首席工程師亞當(dāng)·桑默(Adam Somers)說(shuō)的:“(在 VR 這件事上面),聽(tīng)覺(jué)占了五成,視覺(jué)占剩下五成。”
聽(tīng)覺(jué)決定了人類對(duì)空間的定位、對(duì)物體距離的感知等等。視覺(jué)給出一個(gè)線索,聽(tīng)覺(jué)則去證實(shí)這個(gè)線索是否真實(shí)存在。如果少了視覺(jué)的沉浸感,那么一切畫面的真實(shí)性就蕩然無(wú)存。不解決聽(tīng)覺(jué)問(wèn)題,虛擬現(xiàn)實(shí)就不能成為虛擬現(xiàn)實(shí)。可以這么說(shuō),3D 音頻決定了我們念叨著的 VR 時(shí)代是否真正到來(lái)。
首先科普一下 3D 音頻
什么是 3D 音頻?簡(jiǎn)單來(lái)說(shuō),3D 音頻是對(duì)聲音最逼真的模擬技術(shù),能讓聽(tīng)眾完全還原到與現(xiàn)場(chǎng)相似的聲場(chǎng)。類似的叫法還有全景聲方案、Immersive Audio(沉浸式音頻)。你能到完全聽(tīng)到逼真到 “現(xiàn)實(shí)” 的聲音,而不是 “現(xiàn)實(shí)主義” 的。
目前世界范圍內(nèi)最成熟的空間音頻制作公司之一,VisiSonics 的創(chuàng)始人之一拉瑪尼 · 杜瑞斯沃米(Ramani Duraiswami)有一句話:“當(dāng)你聽(tīng)到的聲音是極度真實(shí)的時(shí)候,耳機(jī)就消失了。”
人耳對(duì)聲音信號(hào)有一套自己的分析系統(tǒng),來(lái)得以對(duì)聲音進(jìn)行分析與定位。從空間任意一點(diǎn)傳到人耳(鼓膜前)的信號(hào)都可以用一個(gè)濾波系統(tǒng)來(lái)描述,音源+濾波器(傳遞函數(shù))得到的就是聲音到達(dá)兩耳鼓膜前的信號(hào)。
人耳對(duì)聲音信號(hào)有一套自己的分析系統(tǒng),來(lái)得以對(duì)聲音進(jìn)行分析與定位。
我們不必關(guān)心聲音是如何傳遞到雙耳的,而只需要知道:音源與到達(dá)我們雙耳之前的信號(hào)是有差別的;并且我們的左耳和右耳聽(tīng)到的聲音是不一樣的。這可能是源于我們的進(jìn)化,視覺(jué)沒(méi)有辦法在黑夜中定位,而耳朵可以通過(guò)左右耳的聲音不同,進(jìn)行定位與防御。
這個(gè)濾波器(傳遞函數(shù))叫 HRTF ( head-related transfer function )。如果我們有空間所有方位到雙耳的濾波器組,就能得到一個(gè)濾波矩陣,從而還原來(lái)自整個(gè)空間方位的聲音信號(hào)。
HRTF 是極具個(gè)人性的。每個(gè)人成長(zhǎng)中都會(huì)形成一套自己對(duì)聽(tīng)力的感知。并且,我們每個(gè)人的頭部大小不一樣、耳間距不一樣,耳朵的輪廓、里面的旋渦狀也不一樣。加上,我們?cè)诔砷L(zhǎng)當(dāng)中養(yǎng)成了自己獨(dú)特的聽(tīng)力習(xí)慣。可以這么說(shuō),每個(gè)人聽(tīng)到的同樣物體發(fā)出的聲音,其實(shí)都有細(xì)微差別。
如何還原人耳真實(shí)聽(tīng)到的聲音?科學(xué)家對(duì)此的探索不是今天的新事。在將近一個(gè)世紀(jì)之前,1933 年,AT&T 貝爾實(shí)驗(yàn)室就把這項(xiàng)技術(shù)帶到了芝加哥世博會(huì)上。這家公司的人聲研究部做了一個(gè)機(jī)械化的仿真人頭——他們把這個(gè)假人取名叫 “Oscar”。Oscar 的耳朵里裝上了兩個(gè)麥克風(fēng),坐在展示房間中,錄取周圍的聲音。Oscar 聽(tīng)到什么,他就能錄到什么。
AT&T 貝爾實(shí)驗(yàn)室提供的解決方案叫做雙耳錄音技術(shù)(Binaural Audio)。
雙耳錄音技術(shù)模擬人類真正的頭部的形狀、左右耳的耳間距,可以收錄到近乎于真正的人類聽(tīng)到的聲音。這是一種有效的“笨方法”,物理層面上即還原了 HRTF。沿著這條路徑,德國(guó)麥克風(fēng)公司紐曼 (Neumann) 在 1973 年到 1992 年間,連續(xù)在雙耳錄音技術(shù)上做出了各種突破——更好的收音設(shè)備、把麥克風(fēng)放置于仿真假人耳內(nèi)鼓膜上等等。
1933年,AT&T實(shí)驗(yàn)室的雙耳錄音技術(shù)仿真人,Oscar。
雙耳錄音技術(shù)在這個(gè)世紀(jì)中一直處于緩慢的速度發(fā)展,原因在于,沒(méi)有強(qiáng)大的產(chǎn)業(yè)需求。一直等到這一波 VR 熱潮的來(lái)臨,它才重上舞臺(tái)。 由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 帶來(lái)的 VR 普及,3D 音頻技術(shù)迎來(lái)了它的 “文藝復(fù)興” ——于是它又被稱作了 VR 音頻。
3D 音頻技術(shù)到底難在哪兒?
VR 需要有 3D 音頻才能產(chǎn)生更真實(shí)的沉浸感。Jaunt 的音頻首席工程師 Adam Somers 在接受 THE VERGE 采訪時(shí)這樣描述:“在沉浸感這件事上面,聽(tīng)覺(jué)占了五成,視覺(jué)占剩下五成。”
Jaunt 是美國(guó)著名的 VR 制作公司,去年得到上海華人文化產(chǎn)業(yè)基金(CMC)與迪斯尼的 6500 萬(wàn)美金投資。
然而,雙耳錄音技術(shù)本身不能支持收聽(tīng)的時(shí)候轉(zhuǎn)動(dòng)頭部。玩家在玩 VR 游戲的時(shí)候,如果有聲音從后面?zhèn)鱽?lái),人的本能反應(yīng)是轉(zhuǎn)頭向后看。這時(shí)候如果聲音繼續(xù)在你的前方,那么會(huì)大大降低沉浸感。
另一種還原真實(shí)聲場(chǎng)的技術(shù)也不能支持收聽(tīng)的時(shí)候轉(zhuǎn)動(dòng)頭部,叫環(huán)繞立體聲 ( surround audio ) 。環(huán)繞立體聲用多個(gè)物理?yè)P(yáng)聲器來(lái)打造一個(gè) 360 度的聲場(chǎng),來(lái)自不同方向的聲音通過(guò)不同的音箱/揚(yáng)聲器來(lái)播放。該項(xiàng)技術(shù)最著名的公司是 DTS 和杜比(Dolby)。
比如一家環(huán)繞立體聲影院,它會(huì)在觀眾的周圍放置很多音箱/揚(yáng)聲器。如果畫面左邊出現(xiàn)了爆炸,那么左邊的音箱會(huì)發(fā)出聲響,而不是右邊。由于播放器的位置固定,聽(tīng)眾只有在固定的點(diǎn),才能聽(tīng)到模擬得最真實(shí)的聲場(chǎng)。
真正的沉浸體驗(yàn),來(lái)自于高中低音頻在空間內(nèi)全方位的還原,即以人頭為中心收錄一個(gè)球形內(nèi)所有角度的聲音,并進(jìn)行還原。
如何解決這個(gè)問(wèn)題?計(jì)算成為了重中之重。
在雙耳錄音技術(shù)取到的聲音之后,還原 HRTF,然后進(jìn)行計(jì)算,把各個(gè)方向的 HRTF 還原,才能合成一套隨著轉(zhuǎn)頭、位置移動(dòng)聲場(chǎng)自然發(fā)生變化的空間音頻。
在這三個(gè)環(huán)節(jié)中——收音、錄音;計(jì)算、渲染 ( processing, rendering ) ;回放——技術(shù)壁壘最強(qiáng)的地方在于計(jì)算環(huán)節(jié)。
核心算法是考驗(yàn)各家空間音頻公司的能力指標(biāo)。Two Big Ears 的公司廣告語(yǔ)說(shuō)明了一切:"We do mathematics so you can focus on being awesome."(我們做數(shù)學(xué),你來(lái)好好做酷的事情。)這家位于愛(ài)爾蘭的公司目前在空間音頻技術(shù)上處于領(lǐng)先地位。
有些團(tuán)隊(duì)則為了減輕計(jì)算量,用了一些比較笨的辦法。比如 3dio,他們創(chuàng)造出收音設(shè)備,可以盡可能地在同一時(shí)間錄到各個(gè)方向的 HRTF 。
3dio 公司生產(chǎn)的四對(duì)仿真人耳的收音設(shè)備。
The Verge 在短片 Hear New York in 3D Audio 中展示他們所用的收音設(shè)備——仿真人耳,這個(gè)收音設(shè)備能夠模擬聲音在耳朵這種獨(dú)特物理結(jié)構(gòu)下的的傳輸過(guò)程,進(jìn)而重現(xiàn)紐約街頭的實(shí)景聲音。
通常,三個(gè)指標(biāo)可以用來(lái)判斷一家公司 3D 音頻核心算法技術(shù)水平:
1、Localization : 指的是聲音的定位。環(huán)繞立體聲對(duì)于聲音的平面 360 度有較好的模擬效果,而對(duì)于上下 360 度則難以模擬。VR 音頻的難點(diǎn)也在于做出上下 360 度的聲音模擬。能做到上下逼真的則技術(shù)更為先進(jìn)。
2、Propagation : 聲音在封閉空間中,不是只傳輸一次,而是有無(wú)數(shù)次的反射(bounce back),我們可以用回音來(lái)理解。Propagation 用來(lái)描述是否能讓用戶感覺(jué)到自己的確在一個(gè)真實(shí)的空間中,這種真實(shí)感越強(qiáng)越好。
3、Occlusion : 聲音在傳輸過(guò)程中,如果中間有一個(gè)障礙物,這個(gè)障礙物會(huì)對(duì)聲音的傳播產(chǎn)生影響。如果一個(gè) VR 音頻技術(shù)可以對(duì)障礙物對(duì)于聲音的影響模擬得很好,則是一個(gè)做得好的 VR 音頻。
除去以上三點(diǎn),目前空間音頻最前沿的解決方案是 Ambisonic 技術(shù)。于是,能不能做 Ambisonic 也是判斷一家公司技術(shù)高低的指標(biāo)。
Ambisonic 同樣是一種聲場(chǎng)模擬手段,但它更考驗(yàn)團(tuán)隊(duì)物理、數(shù)學(xué)和計(jì)算機(jī)的綜合能力。如果我們把空間中某一個(gè)接收聲音的位置想象成一個(gè)充著氣的氣球,那么空間中各處傳來(lái)的聲波會(huì)對(duì)這只氣球表面產(chǎn)生作用力。
Ambisonic 利用這個(gè)簡(jiǎn)單道理,在空間中擺放一堆揚(yáng)聲器,來(lái)模擬對(duì)應(yīng)現(xiàn)實(shí)情況下各處聲波對(duì)這只氣球的作用力,然后計(jì)算,還原 HRTF。
通過(guò) Ambisonic 得到的音頻數(shù)據(jù),是最全面的數(shù)據(jù),它可以降解到任何其他音頻格式。打個(gè)比方,Ambisonic 如果是圖像中的 jpg , 則杜比 7.0 、杜比 5.1 等等音頻格式相當(dāng)于像素。
如何評(píng)價(jià) 3D 音頻技術(shù)的行業(yè)現(xiàn)狀?
3D 音頻技術(shù)勢(shì)必會(huì)改變所有的應(yīng)用場(chǎng)景。整個(gè)空間音頻產(chǎn)業(yè)有兩個(gè)機(jī)會(huì):
第一個(gè)機(jī)會(huì)是做音頻引擎 (audio engine),其核心在于 HRTF 函數(shù)、Propagation 等技術(shù),即如何在游戲里盡可能逼真地還原出立體聲來(lái)。目前簡(jiǎn)單的做法是,在 VR 游戲中放置不同的虛擬音箱,并配合 Oculus Audio SDK ( 實(shí)現(xiàn)了 HRTF 以及其他效果,包括 reflection 等),就可以實(shí)現(xiàn)空間音頻。
而不簡(jiǎn)單的做法有很多,需要團(tuán)隊(duì)具有強(qiáng)大的計(jì)算能力,成立于 2013 年愛(ài)丁堡的 Two Big Ears 是其中翹楚。他們所做的 plug-in 可能是目前行業(yè)中技術(shù)最好的 plug-in 之一。
第二個(gè)機(jī)會(huì)是實(shí)現(xiàn) 3D 音頻在現(xiàn)實(shí)生活中的運(yùn)用,即怎么配合全景視頻錄制帶多個(gè)角度的 VR 音頻。這樣用戶觀看全景視頻的時(shí)候如果轉(zhuǎn)頭,聲音會(huì)進(jìn)行動(dòng)態(tài)調(diào)整。就應(yīng)用場(chǎng)景來(lái)說(shuō),對(duì)于虛擬演唱會(huì),3D音頻技術(shù)尤其重要。
從目前整個(gè)全球市場(chǎng)來(lái)考量,3D 音頻由于其自身技術(shù)難度,還沒(méi)有出現(xiàn)提供完美解決方案的公司與團(tuán)隊(duì),大牌音頻公司 DTS 所做的技術(shù)已經(jīng)比較接近,但最終版本仍沒(méi)有公之于眾,并且面臨著價(jià)格極高的可能性。
最被關(guān)注的七家 3D 音頻技術(shù)團(tuán)隊(duì):
1、VisiSonics
VisiSonic 起步最早,團(tuán)隊(duì)來(lái)自美國(guó)馬里蘭大學(xué)的實(shí)驗(yàn)室,2015年10月與 Oculus 達(dá)成合作。Oculus 購(gòu)買了他們的技術(shù),叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他們?cè)O(shè)計(jì)出了一個(gè) 3D 音頻視頻同步錄制的設(shè)備,由一個(gè)柱型加頂部球型裝置組成,球型裝置上有 64 個(gè)麥克風(fēng)。硬件層面上,技術(shù)拔尖并保持世界領(lǐng)先地位。
2、Two Big Ears
位于蘇格蘭愛(ài)丁堡的團(tuán)隊(duì),最近剛剛被 Facebook 收購(gòu)。他們的核心技術(shù)是做 3D 音頻引擎,名字叫做 3Dception 。就 plug-in 層面上來(lái)講,這支團(tuán)隊(duì)是目前世界范圍內(nèi)技術(shù)最好的團(tuán)隊(duì)。在被 Facebook 收購(gòu)前,據(jù)傳HTC Vive 音頻的計(jì)算渲染用的就是這支團(tuán)隊(duì)。
3、3dio sound
這家公司是目前市面上可見(jiàn)的空間音頻收音錄制領(lǐng)域最好的公司。他們出品了有八個(gè)耳朵的收音裝置。
4、Thrive Audio
這家公司與 Tilt Brush 一同被 Google 收購(gòu),屬于 Google VR 戰(zhàn)略布局的一部分。團(tuán)隊(duì)來(lái)自愛(ài)爾蘭的都柏林圣三一學(xué)院。他們聲稱已經(jīng)申請(qǐng)了兩個(gè)專利。
5、Mint Muse:
一支之前在美國(guó)圣地亞哥、最近剛剛搬遷到上海的團(tuán)隊(duì)。主創(chuàng)團(tuán)隊(duì)來(lái)自高通。他們主攻渲染質(zhì)量、算法優(yōu)化、時(shí)延等領(lǐng)域,設(shè)計(jì)制作空間音頻后期制作、coding 以及軟件插件工具,目前不涉及硬件生產(chǎn)。這支團(tuán)隊(duì)面向的解決人群是錄音師,他們正在開(kāi)發(fā)一款專業(yè) VR 全景聲調(diào)音軟件,讓調(diào)音師可以在編輯全景聲過(guò)程中實(shí)時(shí)監(jiān)聽(tīng)成品效果,簡(jiǎn)化整個(gè)工作流。
6、Waves
這是一家位于以色列的空間音頻技術(shù)公司,之前做專業(yè) studio 的工具,比如插件與音效,是很多著名 studio 的合作伙伴,如 Abbey Road 。
7、Impulsonic
一支孵化于美國(guó)北卡羅來(lái)納大學(xué)計(jì)算機(jī)系的團(tuán)隊(duì)。主要針對(duì) VR 游戲與應(yīng)用的 3D 音頻開(kāi)發(fā),產(chǎn)品叫 Phonon。成立于 2012 年。創(chuàng)始人阿尼什 · 錢達(dá)克(Anish Chandak)博士說(shuō)創(chuàng)立之初他的想法就非常簡(jiǎn)單:“幫助游戲設(shè)計(jì)師與開(kāi)發(fā)者更容易做出高質(zhì)量的空間音頻。” 大部分收入來(lái)自于 Phonon 的 license 收入。他們?nèi)ツ杲邮苊绹?guó)國(guó)家科學(xué)基金的投資,研究同時(shí)應(yīng)用于一些政府項(xiàng)目。
大部分做 VR 游戲的工作室還沒(méi)有開(kāi)始大規(guī)模使用 3D 音頻技術(shù)——原因主要是 “窮”。既然“寒冬” 來(lái)了,那么也就更窮了。事實(shí)上,這些沒(méi)有好內(nèi)容的游戲工作室還用著環(huán)繞立體聲技術(shù);只有少數(shù)極客風(fēng)格的工作室開(kāi)始應(yīng)用一些空間音頻技術(shù)。3D 音頻技術(shù)仍舊是一件挺前沿的事兒。
然而,3D 音頻對(duì)于整個(gè) VR 產(chǎn)業(yè)來(lái)講,是基礎(chǔ)的技術(shù)性板塊。
擁有核心技術(shù),才可能在應(yīng)用層面上等待下一個(gè)突破點(diǎn)。做無(wú)人機(jī)的大疆(DJI)就是一個(gè)例子,早在無(wú)人機(jī)變成商業(yè)模式之前,大疆的主創(chuàng)團(tuán)隊(duì)已經(jīng)在飛行控制這一個(gè)技術(shù)點(diǎn)上做了長(zhǎng)時(shí)間的研究與努力。
如果 VR 終有一天值得每一個(gè)用戶去花時(shí)間使用,那么它勢(shì)必在技術(shù)方方面面上已經(jīng)成熟到可以 “沉浸式體驗(yàn)” 的時(shí)候。
等待回春,先從 3D 音頻開(kāi)始。
(來(lái)源:鈦媒體)
|
|
|||||||
|
|
|||||||
|
|