Обезличивание по новым правилам: Анализ Приказа Роскомнадзора № 140
Для обучения качественных и коммерчески эффективных моделей искусственного интеллекта (LLM, рекомендательные системы, компьютерное зрение) B2B-компаниям нужны большие массивы данных. Нередко они содержат персональные данные (ПДн) клиентов, сотрудников или партнёров, сбор и обработка которых регламентированы Федеральным законом № 152-ФЗ «О персональных данных».
Единственный легальный способ использовать накопленные массивы информации для Data Science исследований и обучения моделей машинного обучения без получения письменных согласий от миллионов людей — это полное и юридически чистое обезличивание данных.
Вступивший в силу Приказ Роскомнадзора № 140 существенно меняет требования. Он устанавливает методологические рамки и юридические процедуры, которые компании обязаны соблюдать при подготовке датасетов. Их несоблюдение влечёт риск признания обучения незаконным — с требованием уничтожить полученную модель — и крупные штрафы.
4 разрешенных метода обезличивания
Приказ Роскомнадзора № 140 строго регламентирует применение четырех методологических подходов к обезличиванию информации:
- Декомпозиция (разделение): Метод, при котором информация о субъекте делится на несколько отдельных частей, распределяемых по разным базам данных. В результате каждая часть сама по себе не позволяет идентифицировать конкретного человека.
- Замена идентификаторов (псевдонимизация): Замена реальных ФИО, паспортов или номеров телефонов на искусственные уникальные идентификаторы (ID). Этот метод часто используется для сохранения связей внутри транзакций при удалении персональных тегов.
- Внесение помех (шума): Добавление случайных микро-искажений или погрешностей в исходные числовые, временные или координатные данные. Например, случайное смещение даты рождения на +/- несколько дней или координат на 50 метров, что делает невозможным точную идентификацию, но сохраняет математические закономерности для ИИ.
- Агрегирование (обобщение): Перевод данных из индивидуального состояния в групповое. Вместо указания точного возраста «37 лет» или дохода «128 400 руб.» данные преобразуются в диапазоны (например, возрастная группа «35–45 лет», доход «100 000–150 000 руб.»).
Для создания полноценного датасета для ИИ, соответствующего нормам Роскомнадзора, как правило, требуется комбинирование этих методов.
Критерий необратимости (Деобезличивание)
Самое важное юридическое требование нового стандарта — критерий необратимости. Процедура обезличивания признается Роскомнадзором легальной и завершенной только в том случае, если без использования дополнительной информации восстановить личность субъекта невозможно ни математически, ни аналитически.
«Главная технико-юридическая ошибка IT-команд — считать простое хэширование (например, ФИО или почты по алгоритму SHA-256) полноценным обезличиванием. Регулятор трактует простой хэш как персональные данные, поскольку хэш-функции уязвимы для атак методом перебора по справочникам (rainbow tables). Для обучения ИИ требуется многоступенчатое зашумление данных с уничтожением ключей соли.»
Если злоумышленник или сам оператор может с помощью других доступных открытых баз (например, слитых реестров или баз ЕГРЮЛ) сопоставить "обезличенные" ID с конкретным физическим лицом, то имеет место факт незаконного хранения персональных данных в небезопасной среде. Это влечет за собой риски по ст. 13.11 КоАП РФ (штрафы до 700 000 руб., а при повторных нарушениях — до 1.5 млн руб.).
Рекомендации для Data Science команд
Чтобы снизить риски и сохранить легитимность обучения ИИ-систем, Data Science департаментам совместно с юристами рекомендуется предпринять следующие шаги:
- Аудит ETL/ELT процессов: Проверьте пайплайны выгрузки данных из боевых СУБД в среду разработки и тестирования (Staging/Sandbox). Персональные данные должны фильтроваться или модифицироваться до попадания в среды разработки.
- Дифференциальная приватность (Differential Privacy): Внедряйте математические концепции приватности непосредственно в алгоритмы сбора данных и обучения. Это предотвращает утечки данных через "восстановление" параметров моделей ИИ (model inversion attacks).
- Изоляция дополнительной информации: Если применяется метод замены идентификаторов (псевдонимизации), таблицы соответствий (соли, маппинги хэшей, связующие ключи) должны храниться в изолированном защищенном контуре с жестким разграничением прав доступа.
- Документирование алгоритмов: Все алгоритмы и параметры обезличивания должны быть четко зафиксированы в технических регламентах. Использование недокументированных скриптов на локальных машинах разработчиков недопустимо.
Как настроить комплаенс и аудит данных
Помимо технических мер, легальность обучения ИИ на датасетах требует оформления юридической обвязки:
- Разработка и внедрение «Регламента обезличивания персональных данных оператора» в соответствии с методологией Приказа РКН № 140.
- Проведение независимого правового аудита датасетов и процессов ПДн для исключения рисков использования нелегально собранных данных.
- Включение специальных разделов в договорную обвязку с разработчиками ИИ, четко распределяющих ответственность за правомерность используемых данных и безопасность обученных моделей.
Практика «ИИ Право» проводит правовой консалтинг и полный правовой аудит ИИ-инфраструктуры, помогая выстроить процессы разработки ИИ так, чтобы снизить риск санкций со стороны Роскомнадзора.
Нужна профессиональная настройка процессов обезличивания данных?
Проведём аудит ваших датасетов, разработаем юридические регламенты для Data Science команд и поможем снизить риск претензий со стороны регуляторов.
Заказать аудит данных