Почему не хватает хитрости в предотвращении мошенничества без обработки на естественном языке

CarderPlanet · Jul 8, 2023

Машинное обучение для обнаружения и предотвращения мошенничества является точным, эффективным и быстрым. Но большинство моделей могут обрабатывать только числовые входные данные. Инженер по машинному обучению Ravelin Шаян Садеги и специалист по обработке данных Энтонс Точилинс-Рубертс объясняют важность NLP и текстовых сигналов для выявления мошенничества…

Системы машинного обучения идеально подходят для динамичного и быстро меняющегося характера мошенничества. Они могут принимать решения в режиме реального времени и оценивать поведение клиентов по мере его возникновения. Все, что вам нужно сделать, это предоставить модели как можно больше данных о клиентах и транзакциях.

Единственная загвоздка заключается в том, что модели машинного обучения могут понимать только цифры. Например, значение заказа или размер. Но, как мы знаем, сигналы мошенничества не всегда отображаются в числовой форме. Текстовая информация, такая как накладные или описания товаров, может быть ключевым показателем мошенничества.

Итак, если ваша модель обучена только на примерах мошенничества с числовыми данными, вы упускаете ценную информацию. Как вы можете гарантировать, что ваша модель машинного обучения фиксирует все мошеннические действия?

Как модель машинного обучения учится выявлять мошенничество?

Модель машинного обучения способна обнаруживать странную активность клиентов, которую затем автоматически блокирует или помечает для проверки аналитиками. Но как она узнает, с чего начинается ‘нормальное’ поведение клиентов?

Модели машинного обучения проходят циклы обучения. Во время этих циклов модель получает примеры того, как выглядит подлинное и мошенническое поведение ваших клиентов. Чем больше примеров она получает, тем лучше становится определять разницу. И, в конечном счете, делать точные прогнозы.

Когда ваш клиент завершает оформление заказа, мы вычисляем тысячи характеристик этого клиента. Эти функции могут быть разбиты на: идентификацию, заказы, платежную информацию, местоположение и сеть. Эта информация вводится в вашу модель для получения оценки риска по шкале 1-100. Чем выше оценка, тем выше вероятность мошенничества. Это чрезвычайно эффективно, но только до определенного момента.

Using_machine_learning_to_generate_a_fraud_risk_score_x3.png

Почему текстовые сигналы так важны?

Давайте воспользуемся примером крупной онлайн-торговой площадки. Торговые площадки позволяют покупателям и продавцам создавать собственные имена и описания, поэтому у них много текстовых данных. И эти поля произвольного текста содержат множество уникальных сигналов о мошенничестве.

Прежде всего, некоторые товары с большей вероятностью могут быть поддельными, потому что они популярны и имеют высокую стоимость. Таким образом, название товара является ценным показателем.

Во-вторых, определенная функция, указанная в названии или описании товара, может вызывать беспокойство. Например, если в описании iPhone говорится, что он взломан.

Наконец, общее качество текста часто может указывать на недобросовестных поставщиков. Опечатки, короткие предложения, подозрительные ссылки - все это может свидетельствовать о мошенничестве.

Мы хотим убедиться, что ваша модель машинного обучения распознает мошенническое поведение во всех формах. А игнорирование текстовых данных ограничивает ее производительность и возможности для этого. Нам нужно иметь возможность вводить все эти данные в модель машинного обучения во время обучения и в производственной среде. Но как?

Как обработка естественного языка применяется для предотвращения мошенничества?

Решение и сложная задача заключается в преобразовании этих текстовых сигналов в числовую форму. Именно здесь в игру вступает обработка естественного языка (NLP).

NLP - это раздел искусственного интеллекта, который работает над тем, чтобы дать компьютерам возможность понимать письменный текст или разговорную речь. В нашем случае мы отправляем текстовые поля в модель NLP в процессе извлечения признаков. Модель NLP возвращает числа, которые представляют эти текстовые поля.

Эти текстовые функции с числовым кодированием затем могут быть введены в вашу модель CNP вместе с другими функциями для получения рекомендации. Процесс проиллюстрирован ниже.

Без модели NLP:

С моделью NLP:

Как работает модель NLP Равелина?

В наших моделях NLP используются самые современные методы встраивания. Встраивания слов - это числовые представления текста, которые кодируют значение слов.

Это достигается за счет группировки похожих слов ближе друг к другу и разнородных слов дальше друг от друга. Это позволяет нам учитывать такие вещи, как контекст и порядок слов – факторы, которые простая модель может пропустить.

Давайте представим, что наша модель NLP усвоила, что двумя наиболее важными характеристиками товара являются его цена и популярность категории товара. Вложения товаров могут выглядеть примерно так:

Используя этот метод двумерного встраивания, мы можем легко отделить наиболее мошеннические товары. В данном случае iPhone и кроссовки. Конечно, встраивания в реальной жизни сложнее и имеют более высокую размерность. Но мотивация та же. Используя эти встраивания, мы можем осмысленно кодировать текст, а затем использовать его в наших моделях.

Как это выглядит на практике?

Теперь наши продавцы игровых товаров могут отличать товары, которые сложнее продать, от тех, которые легче обменять. Например, предоплаченные карты вызывают больший интерес, чем коды активации игр, потому что их легче продать или обналичить. Итак, мошенники - большие поклонники.

Для наших розничных продавцов мы можем учитывать популярность товара. Мы обнаружили, что это довольно важный сигнал для мошенничества.

У продавцов по доставке еды мошенники любят заказывать дорогой алкоголь и нездоровую пищу (кто знал!). Таким образом, названия товаров являются невероятно полезными сигналами.

Во всех отраслях информация о скидках и типе доставки часто предоставляется нам в текстовых полях. Теперь мы можем эффективно использовать эту информацию для поимки злоумышленников.

Защита от мошенничества, рассчитанная на будущее

Конечно, при внедрении дополнительной модели в ваше решение для обнаружения мошенничества возникают проблемы. Но Ravelin располагает необходимой инфраструктурой для обработки нескольких параллельных вызовов разных моделей. Таким образом, задержка не является проблемой, и мы по-прежнему можем поддерживать быстрые и не требующие сложностей прогнозы.

Обнаружение мошенничества - это постоянно развивающаяся область, и мы постоянно совершенствуем наши модели. NLP значительно расширяет возможности и эффективность машинного обучения. Но на этом работа не заканчивается. Добавление новых языков и увеличение количества текстовых полей, которые он может обрабатывать, - это всего лишь пара разработок на горизонте. Мошенники умны и легко приспосабливаются, поэтому оставаться на шаг впереди недостаточно!

Почему не хватает хитрости в предотвращении мошенничества без обработки на естественном языке

CarderPlanet

Professional

Как модель машинного обучения учится выявлять мошенничество?

Почему текстовые сигналы так важны?

Как обработка естественного языка применяется для предотвращения мошенничества?

Без модели NLP:

С моделью NLP:

Как работает модель NLP Равелина?

Как это выглядит на практике?

Защита от мошенничества, рассчитанная на будущее

Similar threads

Почему не хватает хитрости в предотвращении мошенничества без обработки на естественном языке

CarderPlanet

Professional

Как модель машинного обучения учится выявлять мошенничество?​

Почему текстовые сигналы так важны?​

Как обработка естественного языка применяется для предотвращения мошенничества?​

Без модели NLP:​

С моделью NLP:​

Как работает модель NLP Равелина?​

Как это выглядит на практике?​

Защита от мошенничества, рассчитанная на будущее​

Similar threads

Как модель машинного обучения учится выявлять мошенничество?

Почему текстовые сигналы так важны?

Как обработка естественного языка применяется для предотвращения мошенничества?

Без модели NLP:

С моделью NLP:

Как работает модель NLP Равелина?

Как это выглядит на практике?

Защита от мошенничества, рассчитанная на будущее