Ученые разработали технику, использующую объяснительные методы для определения данных, подвергшихся состязательным атакам.
По мере того, как модели машинного обучения все чаще становятся важным компонентом критических приложений, растет и риск появления новых угроз кибербезопасности, таких как состязательные атаки (adversarial attacks), подразумевающие метод обмана нейросети с тем, чтобы она выдала неверный результат.
Команда специалистов из Университета Карнеги-Меллона и Корейского института передовых технологий (KAIST) разработала новую технику, предполагающую использование объяснительных методов для определения данных, подвергшихся состязательным атакам.
Подобные алгоритмы обычно имеют параметр, ограничивающий объем допустимых изменений с тем, чтобы модификации остались незаметными. Существует немало различных способов защиты моделей машинного обучения от состязательных атак, но наиболее популярные методы требуют значительных вычислительных затрат и точности.
В ходе исследования ученые обнаружили связь между состязательными атаками и объяснительностью – еще одним камнем преткновения для моделей машинного обучения. Во многих моделях, особенно в глубоких нейронных сетях, решения сложно отследить из-за большого числа параметров, что усложняет реализацию алгоритмов в приложениях, где требуется объяснение алгоритмических решений.
Новый метод базируется на том, что при «прогонке» модифицированного изображения через объяснительные алгоритмы будут выдаваться аномальные результаты. Техника позволяет выявлять состязательные атаки на основе их объяснительных карт.
По словам специалистов, защита строится в несколько этапов: на первом «сеть-инспектор» использует объяснительные техники для построения карты визуального внимания (карта салиентности) для образцов данных, используемых для тренировки модели машинного обучения. Далее эти карты применяются для обучения «реконструкторской сети» для воспроизведения каждого решения, принятого моделью. Поскольку конструкторские сети обучаются на безобидных образцах, при работе с вредоносными образцами они выдают необычные результаты, что позволяет «инспектору» обнаруживать и помечать модифицированные изображения.
Специалисты протестировали новый метод на MNIST – базе данных образцов рукописного написания цифр, часто используемой для тестирования различных техник машинного обучения. Согласно результатам, метод бесконтрольного обучения смог справиться с обнаружением состязательных атак наравне или лучше по сравнению с популярными техниками. В будущем исследователи планируют испытать новый метод на более сложных базах данных, таких как CIFAR10/100 и ImageNet.
Источник: securitylab