
Концепция
В современном мире голос звучит повсюду. Каждый день мы слышим голоса «непринадлежащие человеку». Мы никогда не видели лицо владельцев этих голосов и не были с ними знакомы, но мы сразу узнаем их, когда слышим их знакомый тембор. Дикторы в метро, аудио книги, голосовые ассистенты, музыканты, скрывающие свое лицо, или не имеющие его вовсе — это всё «голоса вне тела», которые стали полноценной самостоятельной единицей, вне зависимости от человеческого тела. И чем естественнее звучит голос, тем сильнее возникает диссонанс в голове — у этого голоса нет дыхания, запинок, ошибок в речи и понятия «жизни» в привычном для нас смысле. Эти голоса не стареют. С одной стороны это звучит жутко и напоминает «начало восстания машин», заставляя нас задуматься и усомниться в восприятии идентичности, но с другой — это огромный скачек прогресса человеческих технологий, открывающий для нас новые возможности. Современные технологии позволяют в считанные секунду с точностью воспроизводить и имитировать интонации конкретного человека. Меня заинтересовало, как человечество дошло до такого прогресса — когда голос стал возможным без реального рта.
Чтобы выяснить это, я решила изучить эволюцию технологий синтезирования голоса, начиная с самых первых в мире звукозаписывающих механизмов.
Свое исследование я разделила на три рубрики: Глава 1. — эра механической акустики Глава 2. — Электронная эпоха Глава 3. — Эпоха искусственного интеллекта.
В первой главе моего исследования я описываю, показываю и даю послушать первые в мире звукозаписывающие и звуковоспроизводящие устройства, такие, как Фонограф и Граммофон. Я рассказывала как они были устроены, какие механизмы позволяли им работать, кто их разрабатывал и чем они отличаются друг от друга, несмотря на их огромную схожесть. Повествование идёт о 1877–1887 годах.
Во второй главе моего исследования повествование идет о более новых технологиях, дающих больше возможностей, в отличии от механизмов из первой главы. На этот раз голос можно не только записать, но и воспроизвести вручную. Эти технологии я показываю на примере Voder и Vocaloid. Звуковые примеры этих двух способов синтезирования также присутствуют в исследовании! Повествование идёт о 1937–2000 годах.
В третьей главе я рассказываю о самых новейших технологиях синтезирования речи, которые могут работать почти полностью без участия человека. Для примера я взяла голосового помощника Яндекс Алису и несколько видов нейросетей: Sora и ElevenLabs. Повествование идет о 2017–2025 годах.
Этот проект для меня не только университетское исследование, но и попытка понять, что остаётся от нас, когда наш голос может быть воспроизведён после нашей смерти.
Глава 1. Эра механической акустики
Глава 1.1 Фонограф
Фонограф — первое устройство, записывающее звук. Был изобретен Томасом Эдисоном в 1877 году.
Механизм фонографа работает достаточно просто: звук, попадающий в рупор, заставляет мембрану и иглу колебаться, пока цилиндр вращается по спирали. Из-за этого игла делает углубления в фольге, записываясь в форме дорожки. Глубина этих впадин зависит от громкости звука.
Воспроизведение звука проходит по такой же схеме, но наоборот: во время вращения игра проходит по выпуклостям от впадин и заставляет мембрану колебаться, создавая звук.
Одна из моделей фонографа Томаса Эдисона
Схема фонографф
Глава 1.2 Граммофон
Граммофон — механический аппарат для воспроизведения звука с граммофонной пластинки. Граммофон является немного модернизированным вариантом фонографа. Эмиль Берлинер, создатель граммофона, заменил цилиндр, записывающий звук, на диск.
Диск был проще в производстве, хранении и транспортировке, поэтому к началу XX века цилиндры полностью заменили на пластинки.
Запись 1933 года «Wagon Wheels» — Paul Robeson, записанная с помощью граммофона:
Эмиль Берлинер с одной из версий граммофона
Ранний берлинский граммофон — 1890 г.
Изображение граммофонов и патефонов с наружной трубой и внутренним рупором
Глава 2. Электронная эпоха
Глава 2.1 Voder
Voder (Voice Operating Demonstrator) — первый электрический синтезатор речи, работающий путём разделения речи на акустические компоненты. Voder был изобретен в 1937–1938 годах инженером Гомером Дадли.
Впервые Voder увидел свет в 1939 году на Всемирной выставке в Нью-Йорке. Для демонстрации работы Voder, машиной управляла Хелен Харпер.
Хелен Харпер демонстрирует работу Voder в «The Franklin Institute»
Voder на Всемирной выставке в Нью-Йорке — 1939 г.
Механизм Voder был сложным из-за количества большого клавиш, которыми нужно управлять для работы машины. Он состоял из 14-ти клавиш, как у пианино, ножной педали и рычага, управляемого запястьем.
Чтобы голос начал воспроизводиться, оператору, управляющему Voder, с помощью рычага нужно было выбрать один из двух основных звуков — шипящий или гудящий. Шипящий звук — для согласных, а гудящий — для гласных и носовых звуков. После выбора звуки проходят через ряд фильтров, которые выбирает оператор с помощью клавиш. Финальный звук передавался через громкоговоритель. Дополнительно, благодаря ножной педали, можно отрегулировать выразительность тона.
Для звуков, которым не характерно шипение и гудение («p», «d», «j» и «ch»), были сделаны отдельные фильтры.
Клавиши Voder
Схема работы Voder
Видеозапись, демонстрирующая работу Voder — 1939 г.:
Глава 2.2 Vocaloid
Vocaloid — программное обеспечение для синтезирования человеческого пения от японской компании Yamaha Corporation. Релиз проекта состоялся в 2000 году.
Для использования с технологией синтезатора Vocaloid Yamaha Corporation выпускает «пакеты голосов». У большинства пакетов голосов есть свои аватары, которых называют «Вокалоиды». Многие из них являются поп-артистами — выпускают песни, проводят концерты, снимаются в рекламе и т. д.
Например, на данный момент Хацунэ Мику является главной звездой Японской поп-музыки.
Интерфейс Vocaloid 3
Примеры пакетов голосов вокалоидов
Первый голосовой пакет Хацунэ Мику — 2007 г.
Для создания голосового пакета используется голос реального вокалиста, который разбивается на фрагменты. Обрезанные фрагменты обрабатываются и записываются в базу голосового пакета.
Чтобы синтезировать пение, пользователю нужно выбрать пакет голоса из библиотеки. После этого пользователь должен ввести мелодию в программу и указать ноты, соответствующие фонеме (минимальная смыслоразличительная единица языка) песни в формате X-SAMPA (система записи знаков МФА с помощью набора символов ASCII — 7-битная компьютерная кодировка).
В программе есть возможность изменения тембра голоса, частоты и скорости. Система может воспроизводить разные вокальные техники или накладывать эффекты.
Интерфейс программы Vocaloid 2
Пример песни: «Sakura Sakura» в исполнении Хацунэ Мику
Пример готовой песни в исполнении Хацунэ Мику — «Freely Tomorrow» от Mitchie M.:
Запись с концерта Хацунэ Мику на «MIKU EXPO 2016» в Торонто:
Концерт с мероприятия «MIKU EXPO 2018» с выступлением голограммы вокалоида Хацунэ Мику


Концерт с мероприятия «MIKU EXPO 2020»/«MIKU EXPO 2016» с выступлением голограмм вокалоидов Рин и Лен
Глава 3. Эпоха искусственного интеллекта
Глава 3.1 Яндекс Алиса
Алиса — голосовой помощник, разработанный компанией «Яндекс». Алиса уникальна благодаря своей способности к обучению.
В 2017 году состоялся первый запуск приложения Алисы. К этому времени она уже умела осуществлять поиск в интернете, отвечать на вопросы, управлять устройствами умного дома и многое другое.
На данный момент у Алисы также существует технология «Алиса AI».
Умная колонка — Яндекс станция макс с Алисой
Для озвучивания текста используется технология синтеза речи «Yandex Speechkit». Она позволяет понять, как произносятся иностранные слова и фразы.
Для прочтения подготовленного текста используется акустическая модель. По описанию фреймов модель должна составить описания звуков.
Для синтезирования текста необходимы несколько текстов с описанием тембров голосов, после чего генерируются звуковые волны голоса.
Реклама голосового помощника Алиса с примером голосового запроса:
Реклама Яндекс станции Алиса с примером голосового запроса:
Глава 3.2 AI-генерация голоса
В эпоху современных технологий и генеративных систем, становится все сложнее отличить реальный голос от сгенерированного нейросетью. С каждым днем в интернете появляется все больше нейросетей, способных сгенерировать голос любого человека — даже умершего.
Для примера можно взять нейросеть «Sora» — модель искусственного интеллекта, предназначенную для генерации Full HD видео по короткому текстовому описанию, и сервис «ElevenLabs» — онлайн-сервис синтеза речи на основе искусственного интеллекта, предназначенный для создания реалистичных голосов на разных языках.
За последние 2 месяца сервис «Sora» произвел фурор у пользователей по всему миру! За такой короткий срок интернет начал переполняться супер реалистичными и абсурдными видео с разнообразными знаменитостями. Сервис не только в точности повторяет внешность людей, но и голоса!


Логотип «ElevenLabs» // Логотип «Sora»
Пример сгенерированного с помощью сервиса «Sora» видео, с участием популярного стримера, с в точности повторенным голосом знаменитости:
Сгенерированная мной озвучка текста, с помощью сервиса «ElevenLabs»:
Интерфейс сервиса «ElevenLabs»
Заключение
С каждым годом синтезаторы речи становятся все более совершенными. Прогресс не стоит на месте, благодаря чему голос теперь может быть полностью самостоятельной единицей, отчужденной от тела.
ПостНаука Цилиндр против диска: как появились фонографы и граммофоны // Яндекс Дзен URL: https://dzen.ru/a/XeTXnxbvkACuZTI1 (Дата обращения: 19.11.2025)
Фонограф // Википедия URL: https://ru.wikipedia.org/wiki/Фонограф (Дата обращения: 19.11.2025)
История записи и воспроизведения музыки от фоноавтографа до стриминга // dr.head URL: https://doctorhead.ru/blog/istoriya-zapisi-i-vosproizvedeniya-muzyki-ot-fonoavtografa-do-striminga/?srsltid=AfmBOoodmLoP9mwJ-lzhsJ5HnC0AP-_QTvyJ6jM4t6kNQQzvkl9L9mKY#8 (Дата обращения: 19.11.2025)
Игорь Меринов Граммофон: история. устройство, первые граммофоны, как выглядят, фото // Raritetus URL: https://www.raritetus.ru/texts/grammofon/ (Дата обращения: 19.11.2025)
Факты про артефакты Граммофонная эпоха: звук который пережил время // Яндекс Дзен URL: https://dzen.ru/a/Z18W254sHEmzl5MH?ysclid=mi5uxpb5aw466601044 (Дата обращения: 19.11.2025)
Граммофон // Википедия URL: https://ru.wikipedia.org/wiki/Граммофон (Дата обращения: 19.11.2025)
Voder // Википедия URL: https://en.wikipedia.org/wiki/Voder (Дата обращения: 19.11.2025)
LipkoPopovich Voder: первая в мире говорящая машина // pikabu URL: https://pikabu.ru/story/voder_pervaya_v_mire_govoryashchaya_mashina_6638666 (Дата обращения: 19.11.2025)
Vocaloid // Википедия URL: https://ru.wikipedia.org/wiki/Vocaloid (Дата обращения: 19.11.2025)
VOCALOID HISTORY — VOCALOID — the modern singing synthesizer // VOCALOID URL: https://www.vocaloid.com/en/anniversary/history/ (Дата обращения: 19.11.2025)
Алиса_AI // Википедия URL: https://ru.wikipedia.org/wiki/Алиса_AI (Дата обращения: 19.11.2025)
Яндекс Алиса: что такое голосовой помощник, функции и возможности // skyeng URL: https://skyeng.ru/magazine/wiki/it-industriya/chto-takoe-iandeks-alisa/ (Дата обращения: 19.11.2025)
ElevenLabs // Википедия URL: https://ru.wikipedia.org/wiki/ElevenLabs (Дата обращения: 19.11.2025)
Sora // Википедия URL: https://ru.wikipedia.org/wiki/Sora (Дата обращения: 19.11.2025)
https://upload.wikimedia.org/wikipedia/commons/6/69/Vocal_synthesizer_piano_roll_-_Sakura_Sakura.jpg
Скриншот интерфейса — https://unitool.ai/ru/elevenlabs?tab=text-to-speech