Искусственный интеллект сегодня используют не только для создания забавных картинок. С его помощью можно подменить голос — и собеседник поверит, что ему звонит знаменитость или начальство. А можно тот же голос наложить на старое видео — и зрители решат, что человек произносит слова, которые ему и в голову никогда не приходили. Легко ли создать такой дипфейк? Насколько сильно фальшивая запись похожа на настоящую? Чтобы выяснить это, наши пермские коллеги из 59.RU провели эксперимент.
Дипфейк — реалистичная подмена фото, аудио или видео. Изображение или голос синтезируют с помощью ИИ (искусственного интеллекта).
Использовать ваш голос преступники могут, никого не спрашивая. Именно поэтому специалисты рекомендуют не разговаривать с мошенниками «ради смеха», а сразу класть трубку. Чем меньше ваших данных (а голос тоже к ним относится) у афериста, тем ниже шанс, что он получит доступ к банковским картам и другой конфиденциальной информации.
С помощью поддельного аудио с вашим голосом могут обманывать и других людей. Например, от вашего имени призывать кликать на какие-то ссылки.
На недавней встрече представителей Центробанка, Минтербеза, полиции и Роскомнадзора Пермского края всем участникам продемонстрировали, как голос известного спортсмена — саночника Альберта Демченко — из старого видео обработали с помощью специальной программы и выдали новое аудио — с абсолютно другим текстом. Трехкратный призер Олимпиады якобы сообщал о долгах за коммуналку и говорил, что их нужно срочно погасить.
Редакция 59.RU решила повторить эксперимент, немного его усложнив. В качестве основы мы взяли лингвистическую сказку Людмилы Петрушевской «Пуськи бятые» — она полностью состоит из вымышленных слов, на понятном русском лишь предлоги и союзы.
SMM-редактор портала Анна Антипина начитала сказку на диктофон. Затем мы прогнали запись через бесплатную программу с ИИ, задав другой текст — выдержку из закона о банкротстве. Из набора звуков программе нужно было выстроить связный юридический текст. Результат мы записали на видео.
Как видите, второй текст получился вполне осмысленным, хотя и со спорными ударениями. Какие-то интонации программа считала, но в целом голос звучит более механическим, чем в реальности. Кажется, что слова произносит мобильный секретарь или голосовой помощник Алиса.
«Владелица» голоса Анна посчитала, что на нее это совсем не похоже. То есть родные точно не подумают, что это говорит она. Но шапочные знакомые вполне могут списать недостатки записи на плохой прием мобильной сети и поверить. К тому же мы все-таки использовали бесплатную программу из общего доступа, а мошенники могут применять платную, с более узкой специализацией — значит, и с большим сходством голосов.
А как по-вашему: можно спутать созданную с помощью ИИ запись с живым голосом?