Мошенники используют фальшивые аккаунты в социальных сетях для распространения спама, фишинговых ссылок и вредоносных приложений. Facebook рассказывает, как при помощи ИИ наносит ответный удар.
В 2019 году социальная сеть Facebook закрывала почти по 2 млрд. фальшивых учётных записей за квартал. Мошенники используют эти аккаунты для распространения спама, вредоносных программ, фишинга. Это прибыльный бизнес, который может принести неприятности невинным пользователям.
Социальная сеть Facebook поделилась информацией относительно того, как при помощи системы машинного обучения решает эту проблему. Facebook говорит о существовании двух видов фальшивых аккаунтов. Первые аккаунты представляют собой персональные профили организаций или домашних животных, которые должны быть простыми страницами. С ними работать довольно просто, их преобразуют в страницы. Ещё есть нарушающие аккаунты, более серьёзный вид. Это персональные профили, которые занимаются скамом и спамом, нарушая условия работы с Facebook. Такие аккаунты нужно удалять как можно скорее без того, чтобы не задеть учётные записи обычных пользователей.
Для этого Facebook использует вручную закодированные правила и машинное обучение. Это позволяет блокировать фейковые аккаунты до их создания или до того, как они станут активными. В общем, им не дают причинять вред пользователям. Последний этап происходит после того, как фейковый аккаунт активируется. Здесь обнаружение становится значительно более сложным и вступает в дело система машинного обучения Deep Entity Classification (DEC).
Глубокий анализ
DEC учится различать фейковые аккаунты и реальных пользователей за счёт анализа их связей в сети. К числу параметров относятся средний возраст или пол друзей пользователя. Facebook применяет более 20000 глубоких параметров для описания каждого аккаунта, делая снимок того, как профили ведут себя. Это повышает сложность обмана системы со стороны злоумышленников за счёт смены тактики.
Система начинает с использования большого количества данных, генерируемых машинным методом низкой точности. Они генерируются при помощи набора правил и моделей машинного обучения, чтобы понять, реальные эти пользователи или фейковые. Когда данные используются для обучения нейронной сети, выполняется тонкая настройка модели при помощи небольшого набора вручную помеченных данных высокой точности. Эти данные генерируются людьми по всему миру, которые понимают правила местных культур.
Финальная система классификации может определить один из четырёх типов фейковых профилей: не представляющие человека, взломанные аккаунты реальных пользователей, спамерские аккаунты с рассылкой генерирующих прибыль сообщений, скамеры с целью получения персональной информации пользователей. При помощи DEC Facebook удалось добиться, чтобы создание фейковых аккаунтов не превышало 5% ежемесячно активных пользователей.
Этот рассказ появился в то время, когда в США опасаются вмешательства в президентские выборы в нынешнем году. Особенно там боятся технологии Deepfake. В декабре Нью-Йорк Таймс писала, что ведётся скоординированная кампания по дезинформации с применением Deepfake для создания фейковых аккаунтов с убедительными изображениями профиля.
Защита выборов
Команда Facebook говорит, что время релиза этого отчёта выбрано случайно. «Речь идёт о поиске нарушений в целом, а не о выборах», говорит Даниэль Бернхардт, менеджер команды Facebook Community Integrity. DEC может дополнять другие усилия Facebook, направленные на борьбу с вмешательством в выборы. Поскольку система для разделения профилей по категориям полагается на глубокое обучение, её сложно будет обмануть ложными изображениями профиля.
Основатель некоммерческого Thoughtful Technology Project Авив Овадия, который изучает управление и дизайн платформ, говорит, что усилия Facebook по повышению прозрачности своих процедур заслуживают одобрения. Будет полезно обсуждать архитектурные решения и способы работы систем защиты, которые могут взять на вооружение другие компании. Поскольку компании вроде Facebook имеют значительно больше ресурсов, чем небольшие компании, необходимо делиться такими знаниями.
Однако, борьба с фейковыми аккаунтами ещё не закончена. Число ежемесячно активных пользователей Facebook составляет 2,5 млн, 5% от этого числа означает 125 млн. фейковых аккаунтов. Неважно, на каком объёме данных натренирована модель машинного обучения, она не может с идеальной точностью отловить каждый новый аккаунт. Платформе требуется улучшать совместную работу машинного обучения и людей.