Гигабайты власти (Бёрд Киви)

На примере Natural Voices уже очевидно, что клонирование человеческого голоса достигло такого уровня совершенства, когда на слух разница с оригиналом становится неощутима. В своей «базовой» версии это программное обеспечение вышло на рынок с тремя голосами профессиональных актеров, двух мужчин и одной женщины. Затем были добавлены еще два голоса– «ребенка» и «бабушки». Активно ведутся работы над версиями программы для разных языков и диалектов. Уже выпущены варианты «естественных голосов» на испанском, английском, французском и британском английском языках. Пока что комплект такого программного обеспечения стоит несколько тысяч долларов, и ориентировано оно на корпоративных клиентов, таких как телефонные компании; фирмы, занимающиеся созданием программ для чтения разного рода текстовых файлов; изготовители встраиваемых автоматизированных речевых устройств и тому подобное. Ясно, что перед бизнесом открываются захватывающие перспективы – привлечение толп новых клиентов с помощью легко узнаваемых голосов самых знаменитых актеров, телеведущих или политиков, бодро читающих нужные тексты абсолютно произвольного содержания. Но тут же встают многочисленные «скользкие» вопросы. Кто владеет правами на голос знаменитости? Наряду с полностью синтезированными актерами, проникающими ныне в кинематограф, не вытеснят ли синтезированные голоса живых артистов? Конечно же, всплывает сложнейшая проблема с имитацией голоса в мошеннических операциях, поскольку в телефонных переговорах начинается полное размытие границ между «настоящим» и «поддельным».

В настоящее время процесс обучения программы нужному – «заказному» – голосу выглядит следующим образом. Обладатель голоса приходит в студию, где в течение достаточно продолжительного времени – от 10 до 40 часов – начитывает специально подобранные тексты, от бессмысленной чепухи до бизнес‑отчетов. Все сделанные записи нарезаются на крошечные звуки‑фрагменты и в отсортированном виде хранятся в базе данных. Теперь, когда программа зачитывает произвольный текст, нужные фрагменты быстро извлекаются из базы, рекомбинируются и формируют требующиеся предложения. Данная технология именуется «конкатенативный синтез речи». Для тех ситуаций, когда в качестве обладателя заказного голоса фигурирует давно почившая знаменитость, подбирается массив архивных записей требуемого объема. Понятно, что если вдруг злоумышленники решат подделать чей‑то голос, от них потребуется «всего лишь» накопить нужный объем достаточно качественных записей жертвы…

— 74 —