Полагаться на стандарт FID, использующийся для автоматической оценки реалистичности искусственно созданных фото, нельзя.

Команда специалистов Института информатики Общества Макса Планка и Зигенского университета (Германия) установила , что на стандарт, использующийся для автоматической оценки реалистичности искусственно созданных изображений, полагаться нельзя. По их словам, сотни, даже тысячи исследователей по всему миру, использующие этот стандарт, чтоб не платить за проведение оценки живым людям, могут зайти в тупик.

Речь идет о популярном стандарте, известном как начальное расстояние Фреше (Fréchet inception distance, FID). FID – показатель, используемый для оценки качества изображений, созданных генеративно-состязательными сетями (GAN). По словам ученых, FID не способен оценивать искусственно созданные изображения наравне с людьми. Для того чтобы это доказать, они развернули собственную GAN, оптимизированную под FID. Они обнаружили, что FID следует своим собственным навязчивым идеям, заложенным в его коде, и ему обычно не удается достичь «человеческого» стандарта распознавания.

В дополнение к утверждению, что FID не подходит для предполагаемой задачи, исследователи также заявили, что «очевидные» средства защиты, такие как замена внутреннего движка на другие движки, просто поменяют один набор предубеждений на другой. Авторы исследования предполагают, что теперь дело за новыми исследовательскими инициативами по разработке более точных показателей для оценки правдоподобности искусственно созданных фотографий.

FID сравнивает, как функции распределяются в наборе обучающих данных, используемых для создания модели GAN (или аналогичной функциональности), и результаты этой системы. Следовательно, если структура GAN обучена на 10 тыс. изображений, например, знаменитостей, FID сравнивает исходные (реальные) изображения с поддельными изображениями, созданными GAN. Чем ниже балл FID, тем ближе GAN приближается к «фотореалистичным» изображениям в соответствии с критериями FID.

Поскольку FID может использоваться в фреймворке машинного обучения в качестве дискриминатора (встроенного «судьи», решающего, справляется ли GAN, или ей стоит попытаться еще), он должен с точностью воспроизводить стандарты, применяемые при оценке изображений человеком.

Источник: securitylab