БД промышленного масштаба SoReL-20M состоит из 20 млн файлов Windows Portable Executable, 10 млн из которых являются образами вредоносного ПО.

ИБ-компании Sophos и ReversingLabs анонсировали выход базы данных SoReL-20M , состоящей из 20 млн файлов Windows Portable Executable. Из них 10 млн файлов являются образами вредоносного ПО.

База данных, предназначенная для улучшения отрасли ИБ, предоставляет метаданные, метки и функции для файлов, а также позволяет заинтересованным сторонам загружать доступные образцы вредоносных программ для дальнейшего исследования. Предполагается, что общедоступный набор данных, содержащий тщательно подобранные образцы и соответствующие метаданные, поможет ускорить исследования в области использования машинного обучения для обнаружения вредоносных программ.

Хотя модели машинного обучения построены на данных, в сфере ИБ отсутствует стандартная крупномасштабная БД, к которой могут легко получить доступ все, начиная от независимых исследователей и заканчивая ИБ-лабораториями и корпорациями. По мнению специалистов Sophos, отсутствие такой БД тормозило развитие сферы информационной безопасности.

«Сбор большого количества тщательно отобранных, маркированных образцов является дорогостоящим и сложным делом, а совместное использование наборов данных часто усложняется проблемами, связанными с интеллектуальной собственностью, и риском предоставления вредоносного ПО неизвестным третьим сторонам. Как результат, в большинстве исследований в области обнаружения вредоносных программ используются частные внутренние наборы данных, поэтому их результаты нельзя сравнивать», — сообщили специалисты Sophos.

База данных промышленного масштаба SoReL-20M, охватывающая 20 млн образцов, включая 10 млн обезвреженных вредоносных программ, призвана решить эту проблему. Для каждого образца в БД представлены функции, извлеченные на основе набора данных EMBER 2.0, метки, метаданные обнаружения и полные двоичные файлы вредоносного ПО.

Кроме того, предоставляются обученные с использованием этих данных модели машинного обучения PyTorch и LightGBM, а также скрипты для загрузки и итерации данных и скрипты для обучения и тестирования моделей.

Sophos допускает вероятность того, что опытные хакеры смогут использовать БД в своих интересах и создать инструменты для осуществления кибератак. Однако, по словам специалистов, в настоящее время существует множество других источников, которые злоумышленники могут использовать для получения доступа к информации о вредоносном ПО.

Источник: securitylab