Google представила RETVec - новую защиту Gmail от спама и вредоносных электронных писем

Brother

Professional
Messages
2,566
Reputation
3
Reaction score
345
Points
83
gmail.jpg


Google представила новый многоязычный векторизатор текста под названием RETVec (сокращение от Resilient and Efficient Text Vectorizer), который помогает обнаруживать потенциально вредоносный контент, такой как спам и вредоносные электронные письма в Gmail.

"RETVec обучен быть устойчивым к манипуляциям на уровне символов, включая вставку, удаление, опечатки, гомоглифы, замену букв и многое другое", - говорится в описании проекта на GitHub.

"Модель RETVec обучена поверх нового кодировщика символов, который может эффективно кодировать все символы и слова UTF-8".

В то время как крупные платформы, такие как Gmail и YouTube, полагаются на модели классификации текста для выявления фишинговых атак, неуместных комментариев и мошенничества, известно, что злоумышленники разрабатывают контрстратегии для обхода этих мер защиты.

Было замечено, что они прибегают к состязательным манипуляциям с текстом, которые варьируются от использования гомоглифов до заполнения ключевых слов невидимыми символами.

RETVec, который работает на более чем 100 языках "из коробки", призван помочь в создании более устойчивых и эффективных текстовых классификаторов на стороне сервера и на устройстве, а также быть более надежным и действенным.

Векторизация - это методология обработки естественного языка (NLP), позволяющая сопоставлять слова или фразы из словаря с соответствующим числовым представлением для выполнения дальнейшего анализа, такого как анализ настроений, классификация текста и распознавание именованных объектов.

Google RETVec


"Благодаря своей новой архитектуре RETVec работает "из коробки" на любом языке и со всеми символами UTF-8 без необходимости предварительной обработки текста, что делает его идеальным кандидатом для развертывания на устройстве, в Интернете и крупномасштабной классификации текста", - отметили Эли Бурштейн и Марина Чжан из Google.

Технический гигант заявил, что интеграция векторизатора в Gmail повысила уровень обнаружения спама по сравнению с базовым уровнем на 38% и снизила количество ложноположительных срабатываний на 19,4%. Это также снизило использование модели Tensor Processing Unit (TPU) на 83%.

"Модели, обученные с помощью RETVec, демонстрируют более высокую скорость вывода благодаря его компактному представлению. Использование моделей меньшего размера снижает вычислительные затраты и уменьшает время ожидания, что критически важно для крупномасштабных приложений и моделей на устройстве ", - добавили Бурштейн и Чжан.
 
Top