Original size 2480x3500

Голос вне тела: эволюция синтезаторов речи

8
This project is a student project at the School of Design or a research project at the School of Design. This project is not commercial and serves educational purposes
The project is taking part in the competition

Концепция

В современном мире голос звучит повсюду. Каждый день мы слышим голоса «непринадлежащие человеку». Мы никогда не видели лицо владельцев этих голосов и не были с ними знакомы, но мы сразу узнаем их, когда слышим их знакомый тембор. Дикторы в метро, аудио книги, голосовые ассистенты, музыканты, скрывающие свое лицо, или не имеющие его вовсе — это всё «голоса вне тела», которые стали полноценной самостоятельной единицей, вне зависимости от человеческого тела. И чем естественнее звучит голос, тем сильнее возникает диссонанс в голове — у этого голоса нет дыхания, запинок, ошибок в речи и понятия «жизни» в привычном для нас смысле. Эти голоса не стареют. С одной стороны это звучит жутко и напоминает «начало восстания машин», заставляя нас задуматься и усомниться в восприятии идентичности, но с другой — это огромный скачек прогресса человеческих технологий, открывающий для нас новые возможности. Современные технологии позволяют в считанные секунду с точностью воспроизводить и имитировать интонации конкретного человека. Меня заинтересовало, как человечество дошло до такого прогресса — когда голос стал возможным без реального рта.

Чтобы выяснить это, я решила изучить эволюцию технологий синтезирования голоса, начиная с самых первых в мире звукозаписывающих механизмов.

Свое исследование я разделила на три рубрики: Глава 1. — эра механической акустики Глава 2. — Электронная эпоха Глава 3. — Эпоха искусственного интеллекта.

В первой главе моего исследования я описываю, показываю и даю послушать первые в мире звукозаписывающие и звуковоспроизводящие устройства, такие, как Фонограф и Граммофон. Я рассказывала как они были устроены, какие механизмы позволяли им работать, кто их разрабатывал и чем они отличаются друг от друга, несмотря на их огромную схожесть. Повествование идёт о 1877–1887 годах.

Во второй главе моего исследования повествование идет о более новых технологиях, дающих больше возможностей, в отличии от механизмов из первой главы. На этот раз голос можно не только записать, но и воспроизвести вручную. Эти технологии я показываю на примере Voder и Vocaloid. Звуковые примеры этих двух способов синтезирования также присутствуют в исследовании! Повествование идёт о 1937–2000 годах.

В третьей главе я рассказываю о самых новейших технологиях синтезирования речи, которые могут работать почти полностью без участия человека. Для примера я взяла голосового помощника Яндекс Алису и несколько видов нейросетей: Sora и ElevenLabs. Повествование идет о 2017–2025 годах.

Этот проект для меня не только университетское исследование, но и попытка понять, что остаётся от нас, когда наш голос может быть воспроизведён после нашей смерти.

Глава 1. Эра механической акустики

Глава 1.1 Фонограф

Фонограф — первое устройство, записывающее звук. Был изобретен Томасом Эдисоном в 1877 году.

Механизм фонографа работает достаточно просто: звук, попадающий в рупор, заставляет мембрану и иглу колебаться, пока цилиндр вращается по спирали. Из-за этого игла делает углубления в фольге, записываясь в форме дорожки. Глубина этих впадин зависит от громкости звука.

Воспроизведение звука проходит по такой же схеме, но наоборот: во время вращения игра проходит по выпуклостям от впадин и заставляет мембрану колебаться, создавая звук.

Phonograph_Tomas_Edison
3 min
Original size 618x324
Original size 700x465

Одна из моделей фонографа Томаса Эдисона

Original size 552x540
Original size 424x604

Схема фонографф

Глава 1.2 Граммофон

Граммофон — механический аппарат для воспроизведения звука с граммофонной пластинки. Граммофон является немного модернизированным вариантом фонографа. Эмиль Берлинер, создатель граммофона, заменил цилиндр, записывающий звук, на диск.

Диск был проще в производстве, хранении и транспортировке, поэтому к началу XX века цилиндры полностью заменили на пластинки.

Запись 1933 года «Wagon Wheels» — Paul Robeson, записанная с помощью граммофона:

Loading...
Original size 1589x1198

Эмиль Берлинер с одной из версий граммофона

Original size 957x1200

Ранний берлинский граммофон — 1890 г.

Original size 800x390

Изображение граммофонов и патефонов с наружной трубой и внутренним рупором

Глава 2. Электронная эпоха

Глава 2.1 Voder

Voder (Voice Operating Demonstrator) — первый электрический синтезатор речи, работающий путём разделения речи на акустические компоненты. Voder был изобретен в 1937–1938 годах инженером Гомером Дадли.

Впервые Voder увидел свет в 1939 году на Всемирной выставке в Нью-Йорке. Для демонстрации работы Voder, машиной управляла Хелен Харпер.

Original size 500x730

Хелен Харпер демонстрирует работу Voder в «The Franklin Institute»

Original size 700x562

Voder на Всемирной выставке в Нью-Йорке — 1939 г.

Механизм Voder был сложным из-за количества большого клавиш, которыми нужно управлять для работы машины. Он состоял из 14-ти клавиш, как у пианино, ножной педали и рычага, управляемого запястьем.

Чтобы голос начал воспроизводиться, оператору, управляющему Voder, с помощью рычага нужно было выбрать один из двух основных звуков — шипящий или гудящий. Шипящий звук — для согласных, а гудящий — для гласных и носовых звуков. После выбора звуки проходят через ряд фильтров, которые выбирает оператор с помощью клавиш. Финальный звук передавался через громкоговоритель. Дополнительно, благодаря ножной педали, можно отрегулировать выразительность тона.

Для звуков, которым не характерно шипение и гудение («p», «d», «j» и «ch»), были сделаны отдельные фильтры.

Original size 650x528

Клавиши Voder

Original size 1734x1000

Схема работы Voder

Видеозапись, демонстрирующая работу Voder — 1939 г.:

Loading...

Глава 2.2 Vocaloid

Vocaloid — программное обеспечение для синтезирования человеческого пения от японской компании Yamaha Corporation. Релиз проекта состоялся в 2000 году.

Для использования с технологией синтезатора Vocaloid Yamaha Corporation выпускает «пакеты голосов». У большинства пакетов голосов есть свои аватары, которых называют «Вокалоиды». Многие из них являются поп-артистами — выпускают песни, проводят концерты, снимаются в рекламе и т. д.

Например, на данный момент Хацунэ Мику является главной звездой Японской поп-музыки.

Original size 2392x268
Original size 800x439

Интерфейс Vocaloid 3

Original size 3334x739

Примеры пакетов голосов вокалоидов

Original size 800x800

Первый голосовой пакет Хацунэ Мику — 2007 г.

Для создания голосового пакета используется голос реального вокалиста, который разбивается на фрагменты. Обрезанные фрагменты обрабатываются и записываются в базу голосового пакета.

Чтобы синтезировать пение, пользователю нужно выбрать пакет голоса из библиотеки. После этого пользователь должен ввести мелодию в программу и указать ноты, соответствующие фонеме (минимальная смыслоразличительная единица языка) песни в формате X-SAMPA (система записи знаков МФА с помощью набора символов ASCII — 7-битная компьютерная кодировка).

В программе есть возможность изменения тембра голоса, частоты и скорости. Система может воспроизводить разные вокальные техники или накладывать эффекты.

Original size 1152x834

Интерфейс программы Vocaloid 2

Original size 1080x460

Пример песни: «Sakura Sakura» в исполнении Хацунэ Мику

Sakura_Sakura.song
1 min

Пример готовой песни в исполнении Хацунэ Мику — «Freely Tomorrow» от Mitchie M.:

Freely_Tomorrow_Hatsune_Miku
4 min

Запись с концерта Хацунэ Мику на «MIKU EXPO 2016» в Торонто:

Loading...
Original size 900x600

Концерт с мероприятия «MIKU EXPO 2018» с выступлением голограммы вокалоида Хацунэ Мику

Концерт с мероприятия «MIKU EXPO 2020»/«MIKU EXPO 2016» с выступлением голограмм вокалоидов Рин и Лен

Глава 3. Эпоха искусственного интеллекта

Глава 3.1 Яндекс Алиса

Алиса — голосовой помощник, разработанный компанией «Яндекс». Алиса уникальна благодаря своей способности к обучению.

В 2017 году состоялся первый запуск приложения Алисы. К этому времени она уже умела осуществлять поиск в интернете, отвечать на вопросы, управлять устройствами умного дома и многое другое.

На данный момент у Алисы также существует технология «Алиса AI».

Original size 1200x507
Original size 780x518

Умная колонка — Яндекс станция макс с Алисой

Для озвучивания текста используется технология синтеза речи «Yandex Speechkit». Она позволяет понять, как произносятся иностранные слова и фразы.

Для прочтения подготовленного текста используется акустическая модель. По описанию фреймов модель должна составить описания звуков.

Для синтезирования текста необходимы несколько текстов с описанием тембров голосов, после чего генерируются звуковые волны голоса.

Реклама голосового помощника Алиса с примером голосового запроса:

Loading...

Реклама Яндекс станции Алиса с примером голосового запроса:

Loading...

Глава 3.2 AI-генерация голоса

В эпоху современных технологий и генеративных систем, становится все сложнее отличить реальный голос от сгенерированного нейросетью. С каждым днем в интернете появляется все больше нейросетей, способных сгенерировать голос любого человека — даже умершего.

Для примера можно взять нейросеть «Sora» — модель искусственного интеллекта, предназначенную для генерации Full HD видео по короткому текстовому описанию, и сервис «ElevenLabs» — онлайн-сервис синтеза речи на основе искусственного интеллекта, предназначенный для создания реалистичных голосов на разных языках.

За последние 2 месяца сервис «Sora» произвел фурор у пользователей по всему миру! За такой короткий срок интернет начал переполняться супер реалистичными и абсурдными видео с разнообразными знаменитостями. Сервис не только в точности повторяет внешность людей, но и голоса!

Логотип «ElevenLabs» // Логотип «Sora»

Пример сгенерированного с помощью сервиса «Sora» видео, с участием популярного стримера, с в точности повторенным голосом знаменитости:

Loading...

Сгенерированная мной озвучка текста, с помощью сервиса «ElevenLabs»:

ElevenLabs_ Визуальн...
1 min
Original size 1867x949

Интерфейс сервиса «ElevenLabs»

Заключение

С каждым годом синтезаторы речи становятся все более совершенными. Прогресс не стоит на месте, благодаря чему голос теперь может быть полностью самостоятельной единицей, отчужденной от тела.

Bibliography
Show
1.

ПостНаука Цилиндр против диска: как появились фонографы и граммофоны // Яндекс Дзен URL: https://dzen.ru/a/XeTXnxbvkACuZTI1 (Дата обращения: 19.11.2025)

2.

Фонограф // Википедия URL: https://ru.wikipedia.org/wiki/Фонограф (Дата обращения: 19.11.2025)

3.

История записи и воспроизведения музыки от фоноавтографа до стриминга // dr.head URL: https://doctorhead.ru/blog/istoriya-zapisi-i-vosproizvedeniya-muzyki-ot-fonoavtografa-do-striminga/?srsltid=AfmBOoodmLoP9mwJ-lzhsJ5HnC0AP-_QTvyJ6jM4t6kNQQzvkl9L9mKY#8 (Дата обращения: 19.11.2025)

4.

Игорь Меринов Граммофон: история. устройство, первые граммофоны, как выглядят, фото // Raritetus URL: https://www.raritetus.ru/texts/grammofon/ (Дата обращения: 19.11.2025)

5.

Факты про артефакты Граммофонная эпоха: звук который пережил время // Яндекс Дзен URL: https://dzen.ru/a/Z18W254sHEmzl5MH?ysclid=mi5uxpb5aw466601044 (Дата обращения: 19.11.2025)

6.

Граммофон // Википедия URL: https://ru.wikipedia.org/wiki/Граммофон (Дата обращения: 19.11.2025)

7.

Voder // Википедия URL: https://en.wikipedia.org/wiki/Voder (Дата обращения: 19.11.2025)

8.

LipkoPopovich Voder: первая в мире говорящая машина // pikabu URL: https://pikabu.ru/story/voder_pervaya_v_mire_govoryashchaya_mashina_6638666 (Дата обращения: 19.11.2025)

9.

Vocaloid // Википедия URL: https://ru.wikipedia.org/wiki/Vocaloid (Дата обращения: 19.11.2025)

10.

VOCALOID HISTORY — VOCALOID — the modern singing synthesizer // VOCALOID URL: https://www.vocaloid.com/en/anniversary/history/ (Дата обращения: 19.11.2025)

11.

Алиса_AI // Википедия URL: https://ru.wikipedia.org/wiki/Алиса_AI (Дата обращения: 19.11.2025)

12.

Яндекс Алиса: что такое голосовой помощник, функции и возможности // skyeng URL: https://skyeng.ru/magazine/wiki/it-industriya/chto-takoe-iandeks-alisa/ (Дата обращения: 19.11.2025)

13.

ElevenLabs // Википедия URL: https://ru.wikipedia.org/wiki/ElevenLabs (Дата обращения: 19.11.2025)

14.

Sora // Википедия URL: https://ru.wikipedia.org/wiki/Sora (Дата обращения: 19.11.2025)

Image sources
Show
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.19.20.21.22.23.24.25.26.27.28.29.30.31.

Скриншот интерфейса — https://unitool.ai/ru/elevenlabs?tab=text-to-speech

Голос вне тела: эволюция синтезаторов речи
8
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more