Original size 1046x1600

Spatial Hearing

The project is taking part in the competition

Структура разделов

Вступление: Бинауральное звучание и психоакустика Раздел 1: Психоакустика и пространственное восприятие Раздел 2: HRTF и методы измерения Раздел 3: Ранние и поздние отражения Раздел 4: Бинауральные плагины Раздел 5: Применение в музыке и VR Заключение: Влияние бинаурального звучания на восприятие пространства

Вступление

Современное восприятие звука невозможно представить без понимания его пространственных характеристик. Бинауральное звучание позволяет слушателю ощущать глубину, размеры помещения и направление источников через наушники. Разработка специализированных плагинов, интегрирующих HRTF и эмуляцию отражений, открывает новые возможности для музыкантов, звукорежиссёров и разработчиков VR-контента, создавая иммерсивные аудиопрограммы и позволяя исследовать фундаментальные процессы восприятия звука.

Обоснование выбора темы

Тематика исследования выбрана из-за её уникального положения на стыке психоакустики, музыкальной технологии и виртуальной реальности. Бинауральные технологии позволяют понять, как мозг интерпретирует звуковое пространство, а плагины предоставляют практические инструменты для его моделирования. Изучение HRTF, ITD, ILD и отражений раскрывает механизмы когнитивной обработки звука, а интеграция этих методов в виртуальную среду позволяет создавать сложные аудиосцены без физического изменения помещения.

Актуальность темы обусловлена стремительным развитием рынка виртуальной и дополненной реальности, где реалистичный пространственный звук является ключевым компонентом для полного погружения пользователя. Кроме того, в сфере аудиопроизводства наблюдается растущий спрос на инструменты, позволяющие создавать и проверять миксы в наушниках с точностью, сравнимой с мониторингом в студийных условиях.

Визуальные материалы

В качестве визуального материала используются схемы и графики ITD, ILD, HRTF, а также интерфейсы и функциональные схемы плагинов Realphones, Waves NX и DearVR. Эти материалы демонстрируют работу алгоритмов, их психоакустическую основу и влияние на восприятие глубины и локализации источников.

Принцип выбора источников

Для исследования использованы публикации по психоакустике, научные статьи о HRTF, работе ранних и поздних отражений, а также руководства и документация плагинов. Основное внимание уделялось источникам, раскрывающим механизмы локализации звука, отражений и виртуальной эмуляции: Blauert (1997), Algazi et al. (2001), Kulkarni & Hartmann (2010), Wightman & Kistler (1989), документации Realphones, Waves NX и DearVR. Критерием отбора служила как научная значимость работ (их цитируемость и влияние на развитие области), так и их прикладная ценность — возможность непосредственного применения описанных методов и моделей в современных аудио технологиях и коммерческих программных продуктах.

Цели

Ключевой вопрос: как бинауральные технологии и плагины, использующие HRTF и моделирование отражений, влияют на восприятие пространственного расположения источников звука?

Гипотеза: использование индивидуальных HRTF, корректировка ранних и поздних отражений и динамическая обработка источников через бинауральные плагины позволяет добиться высокой реалистичности локализации и глубины сцены, сравнимой с реальным пространством.

Задачи

1. Изучить механизмы психоакустики: ITD, ILD, HRTF 2. Рассмотреть методы измерения и применения HRTF 3. Проанализировать роль ранних и поздних отражений в восприятии помещения 4. Исследовать функционал и возможности современных бинауральных плагинов 5. Рассмотреть применение бинауральных технологий в музыке и VR

Ожидаемым результатом исследования является систематизация знаний о бинауральном синтезе и выявление оптимальных практик его использования для создания достоверного звукового пространства в различных прикладных контекстах — от студийного сведения до построения иммерсивных образовательных и развлекательных систем.

Психоакустика и пространственное восприятие

Пространственное восприятие звука человеком является результатом сложной интеграции множества сенсорных признаков, получаемых через оба уха, а также обработки этих сигналов центральной нервной системой. Главными психоакустическими механизмами, позволяющими локализовать источник звука, являются ITD (Interaural Time Difference), ILD (Interaural Level Difference) и HRTF (Head-Related Transfer Function).

Original size 676x471

Оценка пространственных сигналов (ITD — слева; ILD — справа)

ITD

Это разница во времени прихода звукового сигнала в левое и правое ухо. Мозг использует эту задержку для оценки азимута источника, особенно для низких частот, где длина волны сопоставима с размерами головы. Например, если звук приходит слева, сигнал в левом ухе достигает мозга на доли миллисекунд раньше, чем в правом, и это позволяет мозгу точно определить горизонтальное положение источника.

ILD

Это разница в уровне громкости между ушами, возникающая из-за «тени головы». Особенно заметна для высоких частот, где длина волны мала по сравнению с головой. При этом сигнал с той стороны, где находится источник, будет громче, а противоположное ухо получает более слабый и фильтрованный звук. Совместное использование ITD и ILD позволяет мозгу создавать точную локализацию на горизонтальной плоскости.

HRTF

Это спектральная фильтрация, обусловленная анатомическими особенностями головы, ушных раковин и плечевого пояса. Она даёт мозгу информацию о высоте источника, глубине сцены и пространственном контексте, включая различение звуков, приходящих спереди, сзади, сверху или снизу. HRTF уникальна для каждого человека, поэтому её индивидуальное измерение позволяет значительно повысить точность и реализм звукового пространства.

Original size 1753x888

Head Related Transfer Function (HRTF)

Важно подчеркнуть, что мозг не обрабатывает ITD, ILD и HRTF по отдельности, а интегрирует эти сигналы в единую пространственную модель. Благодаря этому человек способен «ощутить» размер помещения, глубину сцены и движение источников, даже если физического осмотра пространства не происходит.

HRTF и методы измерения

HRTF — это функция, описывающая, как звук трансформируется при прохождении от источника до барабанной перепонки, учитывая индивидуальные анатомические особенности слушателя. Она включает спектральные фильтры для каждого направления источника и критически важна для реалистичной бинауральной локализации.

Манекены HATS (Head and Torso Simulators)

Эти устройства имитируют анатомию человеческой головы, ушей и торса. Микрофоны устанавливаются в ушных каналах манекена, после чего записываются звуки, проигрываемые с разных направлений и на разных частотах. Такой подход позволяет создать точные, повторяемые данные для бинауральных плагинов и исследований.

Original size 964x640

Бинауральный микрофон-манекен

Индивидуальные измерения на реальных слушателях

Более точный метод, позволяющий учитывать уникальную форму ушей и головы конкретного человека. Слушатель помещается в акустически контролируемую камеру, звуки воспроизводятся с разных направлений, а микрофоны в ушных каналах фиксируют изменения спектра и временные задержки. Эти данные формируют персонализированную HRTF, повышая реализм локализации в плагинах.

Original size 1600x1459

Создание персонализированной HRTF модели

Цифровое моделирование и интерполяция

Современные плагины часто используют математическое моделирование и интерполяцию HRTF, позволяя синтезировать новые направления источников без необходимости каждого отдельного измерения. Такой подход используется в Realphones, DearVR и Waves NX, где HRTF интегрирована с рендерингом ранних и поздних отражений для создания иммерсивного эффекта.

Использование индивидуальных HRTF критично для задач виртуальной реальности, иммерсивного микширования и профессиональной студийной работы, поскольку даже небольшие отклонения от реальной функции могут привести к «плоскому» восприятию или ошибочной локализации источников.

Ранние и поздние отражения

Ранние отражения — это первые сигналы, которые достигают ушей после одного или двух отражений от ближайших поверхностей (стены, пол, потолок). Они важны для оценки направления и размеров помещения, так как мозг использует их задержку и интенсивность, чтобы понять расстояние до ближайших объектов и ориентацию пространства. Например, более короткая задержка и высокая амплитуда отражения от стены слева воспринимается как «близкая стена слева».

Поздние отражения — это более рассеянные звуковые волны, многократно отражённые в комнате, формирующие реверберацию. Они создают ощущение глубины, объёма и акустического «воздуха». Мозг различает ранние и поздние отражения и использует разницу во времени и спектре для оценки размеров комнаты. Исследования показывают, что даже небольшие изменения характеристик поздних отражений существенно влияют на субъективное ощущение пространства.

Original size 1200x555

Графики ранних и поздних отражений

В бинауральных плагинах ранние и поздние отражения моделируются отдельно: ранние отражения обычно симулируются точечными задержками с амплитудной фильтрацией, а поздние — через рекурсивную реверберацию с рассеянным спектром. Такой подход позволяет создать убедительную имитацию реальной акустики, включая эффект «присутствия» в студии или помещении, которого физически нет.

Бинауральные плагины

Современные бинауральные плагины предоставляют продвинутые инструменты для точного позиционирования звуковых источников и моделирования их поведения в виртуальном пространстве. Они интегрируют HRTF, ранние и поздние отражения, а также учитывают динамику движения слушателя, создавая ощущение реального объёма и глубины.

Realphones

Эмулятор студийной акустики через наушники. Плагин корректирует перекрёстные эффекты, возникающие при прослушивании через обычные мониторы, и имитирует влияние виртуальной комнаты на звук. В отличие от простой панорамы, Realphones учитывает индивидуальные особенности HRTF, обеспечивая правильное восприятие локализации инструментов в горизонтальной и вертикальной плоскости. Это особенно важно для низких частот, где перекрестные сигналы могут исказить ощущение панорамы.

Original size 1280x720

Интерфейс плагина Realphones

Waves NX

Плагин для VR и иммерсивного микширования, который отслеживает движение головы слушателя в реальном времени. Используя ITD, ILD и индивидуальные HRTF, он корректирует пространственное положение источников в зависимости от положения головы, создавая эффект присутствия. Плагин также моделирует как ранние, так и поздние отражения помещения, что позволяет пользователю ощущать размер и глубину комнаты, не имея физического доступа к ней.

Original size 2996x1970

Интерфейс плагина Waves NX

DearVR

Предоставляет собой гибкую платформу для моделирования различных акустических сред, включая студии, концертные залы и виртуальные пространства. DearVR позволяет управлять позицией источников, их движением, контролировать интенсивность ранних отражений и реверберацию, а также интегрировать многоканальные аудиопотоки. Особенность DearVR — возможность тонкой настройки виртуальной акустики для каждого источника отдельно, что позволяет создавать сложные 3D-звуковые сцены и иммерсивные миксы

Original size 1680x888

Интерфейс плагина DearVR

Благодаря таким плагинам, звукорежиссёры получают инструменты для реалистичной локализации, управления реверберацией и пространственной динамикой, что невозможно реализовать через стандартные стерео-наушники. Использование HRTF и моделирование отражений позволяет изучать не только композиционную структуру музыки, но и психоакустические реакции слушателей, например оценку размеров помещения или ощущение движения источников.

Применение в музыке и VR

Применение бинауральных технологий охватывает широкий спектр задач:

• Микширование музыки с эффектом присутствия: плагин позволяет точно позиционировать каждый инструмент, создавая ощущение живого пространства даже через наушники. • VR и иммерсивные аудиопрограммы: точная локализация и динамика источников повышает реализм, улучшает ощущение присутствия и вовлечённость пользователя. • Обучение звукорежиссёров: возможность оценивать баланс и панораму без необходимости физической студии. • Тестирование акустики помещений: ранние и поздние отражения, интегрированные с HRTF, позволяют оценивать реверберацию и звукопередачу без дорогостоящих изменений в реальном помещении.

Таким образом, психоакустическая основа бинауральных плагинов, включающая ITD, ILD, HRTF, ранние и поздние отражения, формирует полноценный когнитивный опыт пространства. Эти технологии не только расширяют инструментарий звукорежиссёров, но и позволяют исследовать фундаментальные механизмы восприятия звука человеком.

Заключение

Проведенное исследование демонстрирует, что современные бинауральные технологии обеспечивают реалистичное пространственное восприятие звука через комплексное использование психоакустических механизмов. Анализ подтвердил, что:

• Точная локализация источников достигается совместным применением HRTF-фильтров, временных (ITD) и амплитудных (ILD) различий • Пространственные характеристики помещений эффективно моделируются через контроль параметров ранних (5-80 мс) и поздних отражений • Современные бинауральные плагины успешно интегрируют эти механизмы в рабочие инструменты для звукорежиссуры

Результаты исследования подтверждают перспективность использования бинауральных технологий для создания иммерсивного звука в профессиональном аудиопроизводстве и виртуальной реальности. Дальнейшее развитие связано с совершенствованием алгоритмов персонализации HRTF и адаптацией к динамическим акустическим условиям.

Bibliography

Show

Blauert J. Spatial Hearing: The Psychophysics of Human Sound Localization [Электронный ресурс] // MIT Press. — URL: https://mitpress.mit.edu/books/spatial-hearing (дата обращения: 18.11.2025).

Algazi V.R., Duda R.O., Thompson D.M., Avendano C. The CIPIC HRTF Database [Электронный ресурс] // IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. — URL: https://engineering.ucsb.edu/~algazi/CIPIC (дата обращения: 18.11.2025).

Kulkarni A., Hartmann W.M. Detectability of early reflections in rooms [Электронный ресурс] // J. Acoust. Soc. Am. 2010. — URL: https://asa.scitation.org/doi/10.1121/1.3455996 (дата обращения: 18.11.2025).

Wightman F.L., Kistler D.J. Headphone simulation of free-field listening. II: Psychophysical validation [Электронный ресурс] // J. Acoust. Soc. Am. 1989. — URL: https://asa.scitation.org/doi/10.1121/1.396381 (дата обращения: 18.11.2025).

Realphones User Manual [Электронный ресурс] // TLNT. — URL: https://www.tlnt.com/realphones (дата обращения: 18.11.2025).

Waves NX Documentation [Электронный ресурс] // Waves Audio. — URL: https://www.waves.com/nx (дата обращения: 18.11.2025).

DearVR Pro Manual [Электронный ресурс] // Dear Reality. — URL: https://www.dearvr.com/manuals (дата обращения: 18.11.2025).

Algazi V.R., Avendano C., Duda R.O. Measurement and representation of HRTFs for spatial audio [Электронный ресурс] // IEEE Trans. Speech and Audio Processing. 2001. — URL: https://ieeexplore.ieee.org/document/918313 (дата обращения: 18.11.2025).

Begault D.R. 3-D Sound for Virtual Reality and Multimedia [Электронный ресурс] // Academic Press. 1994. — URL: https://www.elsevier.com/books/3-d-sound-for-virtual-reality-and-multimedia/begault/978-0-12-174601-3 (дата обращения: 18.11.2025).

10.

Middlebrooks J.C., Green D.M. Sound localization by human listeners [Электронный ресурс] // Annu. Rev. Psychol. 1991. — URL: https://www.annualreviews.org/doi/10.1146/annurev.ps.42.020191.001031 (дата обращения: 18.11.2025).

Image sources

Show

Оценка пространственных сигналов (ITD — слева; ILD — справа) [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=13240016%2F9CBikYfrx9kiP54ceUnsNA3113&cbird=90&rpt=imageview&lr=10746&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F13240016%2F9CBikYfrx9kiP54ceUnsNA3113%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Head Related Transfer Function (HRTF) [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=1792604%2FQDWthP05RuUUxmE3oPkg8A1980&rpt=imageview&tabInt=1&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F1792604%2FQDWthP05RuUUxmE3oPkg8A1980%2Forig (дата обращения: 18.11.2025).

Бинауральный микрофон-манекен [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=1751050%2Fk9PBd1qFfXFASDqML5v0_g2091&rpt=imageview&cbird=90&lr=10746&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F1751050%2Fk9PBd1qFfXFASDqML5v0_g2091%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Создание персонализированной HRTF модели [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=906325%2FhkprudPEVQWj__64suj_og2185&rpt=imageview&cbird=90&lr=10746&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F906325%2FhkprudPEVQWj__64suj_og2185%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Графики ранних и поздних отражений [Фотография] // Dextro Acoustics. — URL: https://dextroacoustics.com/wp-content/uploads/2018/01/Early-Reflections1.png (дата обращения: 18.11.2025).

Интерфейс плагина Realphones [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=1598966%2F_9goHQkH4PJhY7JiAbD3fQ2922&rpt=imageview&lr=10746&cbird=90&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F1598966%2F_9goHQkH4PJhY7JiAbD3fQ2922%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Интерфейс плагина Waves NX [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=1544561%2FI5xyBFj-RacGeuN2B0voJw2957&lr=10746&rpt=imageview&cbird=90&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F1544561%2FI5xyBFj-RacGeuN2B0voJw2957%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Интерфейс плагина DearVR [Фотография] // Yandex Images. — URL: https://yandex.ru/images/search?cbir_id=2191032%2FUr-bb3X-7H6RK6IEooARVg2988&rpt=imageview&lr=10746&cbird=90&url=https%3A%2F%2Favatars.mds.yandex.net%2Fget-images-cbir%2F2191032%2FUr-bb3X-7H6RK6IEooARVg2988%2Forig&cbir_page=similar (дата обращения: 18.11.2025).

Spatial Hearing