Исследовательская лаборатория им. П. Л. Чебышева » «Злонамеренные атаки: почему они опасны для моделей последовательных данных?»

Новости

01.12.2020

«Злонамеренные атаки: почему они опасны для моделей последовательных данных?»

Семинар “Индустриальная математика”
Пятница, 4 декабря 2020, 18:15 (Moscow time, GMT+3)

Zoom ID: 820-7960-9196, password: ind

«Злонамеренные атаки: почему они опасны для моделей последовательных данных?»

Алексей Зайцев (Сколтех)

Аннотация

Злонамеренные атаки строятся на проработке различных сценариев уязвимости моделей глубинного обучения: незначительные изменения во входных данных могут привести к нарушениям в работе модели. После подачи на вход незначительно измененного в ходе атаки на модель входа, модель дает другой прогноз. Большинство современных атак работают в предположении, что на вход модели подается картинка.

Для моделей последовательных данных, таких как предложения на естественном языке, задача генерации атакующих входов для моделей сложнее. Она затруднена, например, тем, что в качестве входных данных в моделях используются токены из конечных множеств, и уверенность классификатора не дифференцируема. Таким образом, естественные градиентные атаки в таком пространстве входов модели невозможны.

Обычно сейчас атаки для таких данных генерируются на уровне токенов, однако возникающая при этом задача дискретной оптимизации требует существенных ресурсов, такие атаки легко детектировать. Вместо этого мы дообучаем языковую модель для генерации состязательных примеров. Дифференцируемая функция потерь в процессе дообучения зависит от уверенности суррогатного классификатора и дифференцированной оценки расстояния Левенштейна. При этом мы контролируем уровень состязательности генерируемой последовательности и ее сходство с исходной последовательностью.

Это позволяет формировать атакующие последовательности, семантически близкие к исходным. Более того, такие атаки устойчивы к дообучению с помощью выборок злонамеренных последовательностей и детектированию злонамеренных атак. Мы провели эксперименты на выборках из разных областей: банковских транзакций, электронных медицинских карт, обработки естественного языка. Проведенные эксперименты показывают, что наши модели работают лучше существующих аналогов, и защищаться от таких атак труднее.

Данная работа написана в соавторстве с И. Фурсовым, Н. Ключниковым, А. Кравченко и Е. Бурнаевым.

Приглашаются все желающие!

12.04.2024

«Фреймы в банаховом пространстве»

25.10.2023

Итоги конкурса на получение именной премии программы «Родные города» в 2023 году

25.10.2023

«Мечтаем ли мы об AGI? Сценарии, возможности и ожидания»

02.10.2023

«Задачи экстремальной теории множеств и разреженные приближения»

15.09.2023

«Формальные методы спецификации и контроля качества требований к реактивным системам, основанные на паттернах»

01.09.2023

Конкурс на получение Именной премии программы «Родные города» в 2023 году