Для создания образца голоса, нейросети хватит всего трехсекундного образца.

Недавно стало известно о том, что новая нейросеть VALL-E от корпорации Microsoft способна подделывать голос конкретного человека вплоть до интонаций. Об этом пишет ArsTechnica.

Как сообщается, полученный образец VALL-E разбивает на мельчайшие фрагменты и сравнивает их с уже имеющейся базой данных. Обладая информацией о том, как в разных ситуациях звучат голоса других людей, нейросеть «предполагает», как в тех же ситуациях будет звучать голос «донора».

VALL-E обучали на библиотеке LibriLight, содержащей 60 тысяч часов англоязычной речи более чем от 7 тысяч человек. Для системы достаточно записи продолжительностью три секунды, чтобы получить высококачественную подделку.

Издание отмечает, что голос имитируется очень достоверно, у него сохраняется тембр и верная эмоциональная окраска оригинала.

Согласно заявлению Microsoft, VALL-E не будет распространятся в открытом доступе по соображениям безопасности, чтобы нейросетью не воспользовались мошенники.

Источник: securitylab