Фейковые аккаунты в Facebook нужны, чтобы лить трафик серыми методами. Без них сложно продвигать запрещенные офферы или работать с одного IP-адреса. Поскольку мультиаккаунтинг в социальной сети запрещен, арбитражникам и веб-мастерам стоит знать, как Facebook вычисляет ботов и блокирует подозрительные профили.
В статье рассмотрим, как работает модель глубокой классификации данных и как она определяет аккаунты злоумышленников.
По каким параметрам Facebook оценивает, доверять ли аккаунтам
В Facebook огромное число фейковых аккаунтов: только за первый квартал 2019 года модераторы удалили порядка 2,2 ненастоящих профилей. Но это не все — примерно 5% от числа ежемесячных активных пользователей все еще остаются фейковыми. Борьба против них ведется уже почти 10 лет, но эффективной игру в кошки-мышки не назовешь: чем больше аккаунтов удаляют, тем больше их появляется. Вот, что влияет на доверие социальной сети к профилю.
- Как долго зарегистрирован аккаунт — у молодого профиля ниже вероятность стать трастовым.
- Сколько друзей у аккаунта — если их счет идет на тысячи, выше вероятность, что это бот.
- ГЕО, в котором зарегистрирован аккаунт — в некоторых странах чаще скупают сим-карты или IP-адреса и создают тысячи фейковых аккаунтов.
- Поведенческие характеристики аккаунта — количество и частота опубликованных постов, комментариев и лайков на чужих записях.
- Взаимодействие аккаунта с другими профилями и сторонними ссылками.
- Технические характеристики: операционная система, с которой зарегистрирован профиль, IP-адрес, цифровой отпечаток устройства.
- Участие и активность в различных группах — некоторым сообществам меньше доверяют модераторы и чаще проверяют из-за их злоупотребления.
- Качество контента, который размещается на странице профиля.
- Активность профиля в социальной сети — глубина просмотра, среднее количество посещенных страниц, частота посещений.
- Качественные признаки, например, среднее количество групп на друга, доля аккаунтов в определенном ГЕО.
Как Facebook борется с фейковыми аккаунтами
- При помощи модераторов. Вручную люди просматривают аккаунты и проверяют, принадлежат ли они реальным пользователям. В социальной сети есть сложная система обеспечения качества разметки данных, но даже она не может справиться с миллиардами зарегистрированных аккаунтов.
- При помощи вручную прописанных правил для алгоритмов. У такого способа также есть недостатки: нужно прописать тысячи правил и обновлять базу каждый день. Но и тогда не факт, что способ даст положительные результаты — мошенники будут реагировать быстрее.
- При помощи машинного обучения. ML-системы самостоятельно обучаются, и вероятность определения фейковых аккаунтов повышается.
Как работает ML
— Facebook составляет перечень признаков, по которым будет анализировать аккаунты. Обычно это возраст профиля, ГЕО регистрации, количество друзей и качество контента на странице.
— После эти признаки соотносятся со страницей и по каждому показателю проставляется метка — вредоносный это аккаунт или нет.
— Затем данные подаются на вход модели, это может быть градиентный бустинг дерева решений или нейронная сеть. На выходе модель выносит решение — нужно ли блокировать профиль за нарушение правил площадки или нет.
Недостатки работы машинного обучения в определении фейков
У машинного обучения также есть минусы.
- Допустим, есть корреляция между возрастом аккаунта и вероятностью, что он фейковый: чем они моложе, тем больше ботов. Создается признак — возраст аккаунта — который теперь учитывается в анализе. Внедряется новый классификатор, мошенники понимают, что недавно созданным профилям доверяют меньше, поэтому начинают работать с более старыми. Теперь новые аккаунты не задействуются в запрещенных схемах, а «состариваются», что помогает обойти модерацию. Так возникает бесконечная гонка мошенников и модераторов.
С этой проблемой справляется технология Dec. Она позволяет собирать данные не только по одному аккаунту, но и по профилям, с которыми пользователь взаимодействует. Извлекается и анализируется информация об общем пользовательском поведении в сети, паттернах человека.
- Вторая проблема — ограниченное количество параметров, по которым можно проверять аккаунт. Из-за этого мошенники быстро понимают, какие именно это признаки, и адаптируют свою работу, чтобы не попадаться модерации.
В этом снова помогает технология Dec, рекурсивная по своей сути. Для каждого отдельного аккаунта она собирает несколько тысяч признаков, которые дают более полное понимание пользовательского поведения.
- Предыдущее решение проблемы создает новую проблему — по каждой метке собирается огромное количество данных. Не все технологии машинного обучения могут справиться с таким объемом и делать правильные выводы.
Тут технология Dec использует метод многозадачного обучения с постоянными этапами использованием больших объемов низкоточных автоматизированных меток и небольших объемов высокоточных меток, собираемых с аккаунтов.
Как Facebook собирает данные с аккаунтов
Чтобы понять, как машинное обучение определяет фейковый аккаунт, нужно понять, как извлекаются данные по определенным признакам. Сначала собираются прямые данные: дата регистрации, возраст, ГЕО авторизации, информация о друзьях. Затем собираются более сложные факторы: аккаунты, с которыми происходит взаимодействие, участие в группах, устройства, с которых осуществляется регулярный вход. Данные агрегируются, а затем ML ищет шаблонное поведение, отклонения от трендов — так и выявляются фейковые аккаунты.
Рассмотрим этот процесс на примере. Для каждого объекта (пользователь или устройство) есть заранее определенный список собираемых параметров. Например,
- с пользователей собирают пол и возраст;
- с устройств — данные об операционной системе и цифровой отпечаток;
- с группы — количество участников, их возраст, количество комментариев и лайков;
- с аккаунтов — информация о том, с кем они взаимодействуют, о страницах, которыми управляют, о постах, которые выкладывают;
- IP-адрес — аккаунты, которые зарегистрированы с этого адреса.
После к собранным данным применяют определенные типы агрегации информации для поиска интересных шаблонов и паттернов поведения. Вот основные типы агрегации:
- Числовой. Анализируется минимальное, максимальное, среднее и медианное значения. Допустим, у пользователя два друга, первый состоит в 3 группах, а второй в 5. Один из вариантов агрегируемых данных, которые можно получить из этих показателей — среднее количество групп на друга. В этом примере оно равно 4. Сравнивая это значение с максимальными и минимальными, можно определить тренды для каждого аккаунта.
- Категориальный. В таком типе агрегации собирается информация о доли самой распространенной категории и их общем количестве. Например, оба друга из примера выше из Испании, значит категория «Испания» занимает 100%. После базового показателя ГЕО анализируются вторичные сущности — те, с которыми взаимодействует аккаунт. Допустим, у двух друзей есть посты на странице, алгоритм ищет наибольшее количество лайков. Для первого друга это будет 34 лайка, а для второго — 46 лайков. После мы снова применяем агрегацию и находим пост с наибольшим количеством лайков у самого «успешного» друга, тут это 46.
Так собираются данные по более чем 20 000 признакам для каждого аккаунта. Это серьезная база данных, которая позволяет охватить значимые социальные показатели. Поэтому этот тип агрегации более устойчив к мошенникам и дает лучший результат.
И именно благодаря этим данным можно легко настраивать таргетированную рекламу и лить трафик, учитывая все настройки заданной аудитории. Например, через партнерскую сеть ARAY.COM можно легко начать лить именно те офферы и гео, которые будут соответствовать необходимым параметрам ЦА.
В Гондурасе и Мексике активно продвигаются такие офферы как:
Когда ML собрала данные одним из способов агрегации, можно создавать структуру модели. Главная сложность здесь заключается в разработке архитектуры, которая сможет обработать огромный объем данных без переобучения и требования большого количества меток от пользователей. Для этого создали классификацию типов нарушений правил площадки. Злоупотребления могут быть разными: спам, мошенничество, фейки, фишинг данных. Таких выводов об аккаунтах может быть много, но не все из них будут достоверно точными.
Следующий этап — обучение модели. Facebook использует многозадачное обучение на нескольких этапах. Основная задача ML — передавать знания и улучшать обработку информации путем анализа нескольких параллельных задач на основе нейронной сети. Обучение проходит в два этапа.
- Создание многозадачных нейронных сетей.
Для нее и собирались входные данные в несколько десятков тысяч признаков. Их недостаток в низкой точности и большом объеме, поэтому метки группируются и классифицируются. Затем данные сравниваются для каждых пользователей или для каждых примеров и машина делает вывод: мошенник ли это, распространяет ли он спам, фейки или занимается фишингом данных? После происходит обучение модели, извлекается последний 32-мерный вложенный слой, который определяет вредоносные характеристика аккаунта.
- Создание традиционной модели
Более классический вариант модели — градиентный бустинг деревьев решений или нейронная сеть. Входными данными для нее является 32-мерная вложенная сеть из предыдущей модели, которая соединена с метками высокого качества, сообщающими о вредоносности профиля. На основе этой информации модель обучается, и выдает прогноз — злоупотребляет ли этот аккаунт правилами площадки и нужно ли его блокировать.
Чтобы оценить качество работы модели, есть особый метод, в котором используются случайно выбранные данные и небольшое количество данных из аккаунтов. Первая модель — поведенческая, к ней относится градиентный бустинг деревьев решений и прямые признаки.
Второй тип модели — метод обратного распространения ошибки в нейронных сетях. Тут учитывается длительность существования аккаунта, ГЕО, перечень друзей, посещенные и зарегистрированные группы, устройства, с которых осуществлялся вход.
С такими методами Facebook быстрее и эффективнее блокирует аккаунты, улучшает точность модерации, может справляться с большим массивом данным и оставаться адаптивным к изменениям работы злоумышленников.