Dźwięk immersyjny – idealne uzupełnienie telewizji immersyjnej

Dźwięk immersyjny – idealne uzupełnienie telewizji immersyjnej
Telewizja – może nieco wbrew swojej nazwie – to nie jedynie transmisja wideo. Częścią przekazu telewizyjnego jest również fonia – zazwyczaj obecna, a jakże często niedoceniana. Z jej jakością bywa różnie, a obserwując wyścig w ulepszaniu obrazu wideo, zwiększanie liczby pikseli i palety barw, można odnieść wrażenie, że jest wręcz lekceważona.

Jednak czym byłaby telewizja bez dialogów, tła muzycznego budującego nastrój, nie mówiąc już o efektach dźwiękowych „wzmacniających” kino akcji, a przecież w wielu przypadkach to dźwięk staje się kluczowym aspektem postrzegania jakości telewizji (koncerty i programy muzyczne). Czy jednak telewizja immersyjna wymaga specjalnego dźwięku? Czy wymagane jest coś więcej niż po prostu przekaz fonii dobrej jakości? Można powiedzieć, że odtwarzanie dźwięku jest zawsze doświadczeniem immersyjnym, pytanie jednak dotyczy intensywności tego wrażenia.

Dźwięk z głośników wypełnia przestrzeń wokół nas, gdy odbijając się od ścian dociera do naszych uszu z różnych stron i pod różnym kątem. Dźwięk ten może przenieść odległe miejsca do naszego domu, a siła tego doświadczenia zależy od tego, jak wiernie odtworzymy oryginalne pole akustyczne. Mecz oglądany „bez głosu” wydaje się jedynie animowanym obrazkiem w ramce. Wystarczy jednak usłyszeć dźwięki stadionu, krzyk tłumu i doping kibiców, a emocje rosną i mamy wrażenie, jakby stadion znajdował się tuż pod naszymi oknami. Nawet najprostsze stereo daje już pewne wyczucie położenia źródeł dźwięku. Dźwięk binauralny (czyli stereo uwzględniające psychoakustykę) odtworzony w dobrej jakości słuchawkach potęguje wrażenie przebywania w centrum wydarzeń oglądanych w telewizji.

Idąc krok dalej, rozważmy systemy kina domowego, a więc dźwięk wielokanałowy 5.1, 7.1, itp. Oglądając dobry horror w takim systemie możemy być przekonani, że coś straszliwego czai się tuż za naszymi plecami wywołując na nich ciarki. W profesjonalnych zastosowaniach stosuje się nawet większą liczbę kanałów dźwiękowych (np. 22.2) w celu zwiększenia rozdzielczości pola akustycznego i zróżnicowania wysokości w dotychczas płaskim ustawieniu głośników. Horror oglądany na dużym ekranie kinowym z wielokanałowym otaczającym dźwiękiem, to doświadczenie dla prawdziwych twardzieli. Te powszechnie używane, choćby w kinie, technologie można także wykorzystać przy intensyfikacji wideo immersyjnego, choć nie zawsze jest to wystarczające.

W przypadku zastosowania okularów do wirtualnej rzeczywistości (ang. Head-Mounted Display) wraz ze słuchawkami umiejscowienie dźwięków względem nas powinno się zmieniać wraz z obrotem głowy, aby pasować do tego co widzimy. W tej sytuacji rozwiązaniem jest dźwięk ambisoniczny. Zamiast dostarczać po jednym kanale dla każdego głośnika o ustalonej z góry pozycji, w tym formacie opisujemy pole dźwiękowe w konkretnym punkcie, w którym znajduje się odbiorca. Aby odtworzyć podążającą za ruchem głowy fonię musimy jednak wykorzystać specjalistyczne algorytmy w celu uwzględnienia rzeczywistej pozycji głośników – np. obracających się razem z głową słuchawek.

W trzecim etapie projektu ImmersiaTV (tzw. Pilot 3) zamierzamy wykorzystać dźwięk ambisoniczny pierwszego stopnia. Jest to dźwięk składający się z czterech kanałów: jeden zmiksowany kanał dookólny i po jednym różnicowym dla każdego z 3 kierunków. Warto zauważyć, że opisywany punkt odsłuchu jest wirtualny, gdyż znajduje się w środku naszej głowy. Pierwszy stopień dźwięku ambisonicznego jednak wystarcza, by wyznaczyć dobre przybliżenie dla rzeczywistego położenia naszych uszu. Większą precyzję możemy uzyskać nagraniem dźwięku ambisonicznego wyższego rzędu, ale wymaga to przesłania i obliczenia większej liczby kanałów, a co za tym idzie trudniejszego procesu produkcji.

Innym interesującym rozwiązaniem są obiekty dźwiękowe – opis źródeł dźwięku zawierający ich pozycję w przestrzeni 3D. To podejście pozwala w interaktywny sposób dopasować źródła dźwięku do ruchów głowy słuchacza. Wszystkie wspomniane rodzaje dźwięku mogą być jednocześnie zakodowane i transmitowane przy wykorzystaniu standardu MPEG-H 3D Audio.

Produkcja w pełni immersyjnego dźwięku nie jest sprawą łatwą. Nagrywanie wymaga specjalnego sprzętu oraz wykonania dodatkowych działań w postprodukcji. Za to efekt końcowy – przestrzennie umiejscowiony dźwięk pasujący do wrażeń wizualnych – niezwykle podnosi intensywność doznań. Dlatego też chcąc stworzyć telewizję w pełni immersyjną, chcemy w projekcie ImmersiaTV wykorzystać nowatorskie podejście do nagrywania, produkcji i odtwarzania dźwięku otaczającego za pomocą wspomnianych standardów. Już wkrótce mamy nadzieję zaprezentować efekty naszej pracy.