Решением проблемы может стать переход на использование синтетических данных.
Согласно новому исследованию компании Datagen, 99% команд специалистов в области компьютерного зрения столкнулись с необходимостью закрыть проекты с использованием машинного обучения из-за недостатка данных для обучения своих моделей. Более того, по той же причине все (100%) участники исследования были вынуждены отложить проекты.
Как выяснили исследователи, проблемы с обучающими данными носят самый разный характер и затрагивают команды специалистов в равной степени. Самыми главными проблемами являются недостаточная аннотация (48%), несоответствующий охват предметной области (47%) и дефицит данных (44%).
Нехватка надежных данных для обучения в конкретной предметной области усугубляется тем фактом, что в сфере компьютерного зрения не хватает четко определенных стандартов и передовых практик.
На вопрос о том, как собираются обучающие данные в их организациях, респонденты представили целую «сборную солянку» из различных источников и методологий. Синтетические или настоящие, собранные внутри организации или полученные из публичных наборов данные – как оказалось, для обучения моделей компьютерного зрения организации используют абсолютно все данные, независимо от их происхождения.
Тем не менее, команды специалистов в области компьютерного зрения, похоже, нашли решение проблемы в виде синтетических данных. 96% опрошенных уже используют синтетические данные для обучения своих моделей искусственного интеллекта. Однако качество, источник и доля используемых синтетических данных по-прежнему сильно различаются в зависимости от области, и только 6% команд в настоящее время используют исключительно синтетические данные.
Повсеместный переход на использование синтетических данных соответствует количеству новых прогнозов о том, что 2022 год станет прорывом для синтетических данных.
В online-опросе Datagen приняли участие 300 специалистов в области компьютерного зрения, представляющих 300 отдельных предприятий.
Источник: securitylab