АО «Концерн Росэнергоатом» (входит в Электроэнергетический дивизион Госкорпорации «Росатом»), АО «КОНСИСТ-ОС» (дочернее общество «Росэнергоатома») и Частное учреждение по цифровизации атомной отрасли «Цифрум» (Госкорпорация «Росатом») завершили пилотный проект по созданию отраслевой системы по учету и хранению паспортов датасетов.Датасет – это совокупность данных в терминах задач машинного обучения и их описания. Паспорт датасета содержит информацию о его содержании, владельце и цели использования, а также позволяет оценить его применимость для решения задач потребителя, определить способы загрузки и варианты последующего использования. Проект был реализован в рамках программы Росатома «Сквозные цифровые технологии и управление данными» и направлен на создание единой платформы для отраслевого реестра датасетов, моделей машинного обучения, методологий решения типовых задач в области искусственного интеллекта. В базу уже загружены 12 пилотных паспортов датасетов, созданных «Росэнергоатомом» и компанией «Цифрум» в рамках проектов с использованием искусственного интеллекта и применением машинного обучения. Система проходит процедуру регистрации в Реестре российского ПО. «Искусственный интеллект и, в частности, машинное обучение являются сейчас активно развивающимися технологиями в отрасли. На текущий момент уже накопился большой объем датасетов, которые используются для обучения искусственного интеллекта в рамках различных проектов. В связи с этим перед «Росэнергоатомом» и отраслью в целом встал вопрос создания их реестра и реализации возможности повторного использования уже имеющихся датасетов в других проектах. Это позволит существенно сократить время и трудозатраты на подготовку данных для создания новых моделей», — прокомментировал Олег Шальнов, директор Департамента управления ИТ-проектами и интеграцией АО «Концерн Росэнергоатом». Каждый датасет размещается в реестре вместе с подробным описанием его содержания, назначения и истории использования. Эта информация позволяет оценить потенциальную пригодность конкретного набора данных для решения других задач и варианты его последующего использования. Наличие реестра также позволяет в случае сбоев в работе систем с искусственным интеллектом легко найти исходные данные, на которых обучалась данная нейросеть, провести анализ и внести необходимые корректировки в модель.