Машинное обучение и обнаружение мошенничества: доктора философии высказывают свое мнение

CarderPlanet

Professional
Messages
2,557
Reputation
7
Reaction score
523
Points
83
Летом мы работали над программой S2DS 2023, целью которой является преодоление разрыва между академией и рабочим местом для студентов, заканчивающих аспирантуру.

Летом нам посчастливилось поработать с программой S2DS 2023. Цель S2DS - преодолеть разрыв между академией и рабочим местом для студентов, заканчивающих аспирантуру. Ниже вы можете посмотреть действительно отточенное видео, в котором дается потрясающий обзор того, что там происходит. Нам посчастливилось, что 4 студента работали с нашими специалистами по обработке данных, используя различные методы для создания моделей машинного обучения для обнаружения мошенничества – эволюции, которые мы используем сегодня на данных наших бета-клиентов - подробнее об этом читайте здесь.

По итогам проведенного с нами времени мы попросили студентов поделиться с нами своими мыслями о том, считают ли они машинное обучение полезным способом выявления мошенничества, а также более подробной информацией об их опыте работы в Ravelin. Мы подумали, что они достаточно интересны, чтобы поделиться ими, и мы поделимся ими в течение недели.
Вы можете посмотреть краткое изложение здесь.

Первое интервью - с Фабианом Питерсом, аспирантом (стипендия Grand Challenges) Университетского колледжа Лондона.

Вопрос: В чем машинное обучение хорошо помогает в выявлении мошенничества и какие, по вашему мнению, есть недостатки?

Многие, если не большинство функций, входящих в модель машинного обучения, на самом деле довольно просты и используются очень похожими способами при ‘классическом’ обнаружении мошенничества. Однако машинное обучение преуспевает именно в нахождении оптимальной комбинации этих многочисленных показателей мошенничества, которые сами по себе часто довольно слабы, и придании им правильного значения. Кроме того, хорошие модели машинного обучения превращают то, что классически часто рассматривается как бинарный ответ, в достоверные измерения и, таким образом, позволяют клиентам выбирать свой собственный компромисс между точностью и отзывом. Наконец, хорошее машинное обучение является гибким и может использовать несколько комбинаций функций, что позволяет ему справляться с недостающими данными.
Я думаю, что большая проблема в машинном обучении заключается в том, чтобы помнить, что существуют реальные моральные последствия того, как используются числа, полученные алгоритмом, и что тот факт, что решение принимает машина, не освобождает человека от ответственности.

В: Какие методы машинного обучения вы использовали и какие, по вашему мнению, были наиболее эффективными?
Логрегирование, случайные леса и деревья с усилением градиента. GBT был самым сильным кандидатом, но RF обладает наилучшим балансом точности, скорости и интерпретируемости и кажется идеальной основой для разработки модели. В конце концов, я думаю, что стеки моделей (комбинации) - это правильный путь.

В: Были ли методы, от которых вы отказались, и почему?
Я старался держаться подальше от всего, что слишком похоже на черный ящик. В частности, от нейронных сетей, но для начала также от GBT. Я думаю, что на этапе создания функций интерпретируемость превосходит небольшое увеличение производительности.

В: Порекомендовали бы вы продавцу использовать технологию ML для обнаружения мошенничества?

Безусловно, я думаю, что это лучший способ обнаружить мошенничество, сохраняя при этом контроль над тем, как с ним бороться (оценки вероятности)

В: Есть ли во время программы какие-либо моменты, которые вы считаете особенно интересными и которыми хотели бы поделиться?
Думаю, я понял, что понимание ваших данных и тщательное отношение к их очистке и отфильтровыванию неоднозначных точек данных часто более эффективны, чем использование более мощных алгоритмов.
 
Top