Brother
Professional
- Messages
- 2,590
- Reaction score
- 480
- Points
- 83

Google представила новый многоязычный векторизатор текста под названием RETVec (сокращение от Resilient and Efficient Text Vectorizer), который помогает обнаруживать потенциально вредоносный контент, такой как спам и вредоносные электронные письма в Gmail.
"RETVec обучен быть устойчивым к манипуляциям на уровне символов, включая вставку, удаление, опечатки, гомоглифы, замену букв и многое другое", - говорится в описании проекта на GitHub.
"Модель RETVec обучена поверх нового кодировщика символов, который может эффективно кодировать все символы и слова UTF-8".
В то время как крупные платформы, такие как Gmail и YouTube, полагаются на модели классификации текста для выявления фишинговых атак, неуместных комментариев и мошенничества, известно, что злоумышленники разрабатывают контрстратегии для обхода этих мер защиты.
Было замечено, что они прибегают к состязательным манипуляциям с текстом, которые варьируются от использования гомоглифов до заполнения ключевых слов невидимыми символами.
RETVec, который работает на более чем 100 языках "из коробки", призван помочь в создании более устойчивых и эффективных текстовых классификаторов на стороне сервера и на устройстве, а также быть более надежным и действенным.
Векторизация - это методология обработки естественного языка (NLP), позволяющая сопоставлять слова или фразы из словаря с соответствующим числовым представлением для выполнения дальнейшего анализа, такого как анализ настроений, классификация текста и распознавание именованных объектов.

"Благодаря своей новой архитектуре RETVec работает "из коробки" на любом языке и со всеми символами UTF-8 без необходимости предварительной обработки текста, что делает его идеальным кандидатом для развертывания на устройстве, в Интернете и крупномасштабной классификации текста", - отметили Эли Бурштейн и Марина Чжан из Google.
Технический гигант заявил, что интеграция векторизатора в Gmail повысила уровень обнаружения спама по сравнению с базовым уровнем на 38% и снизила количество ложноположительных срабатываний на 19,4%. Это также снизило использование модели Tensor Processing Unit (TPU) на 83%.
"Модели, обученные с помощью RETVec, демонстрируют более высокую скорость вывода благодаря его компактному представлению. Использование моделей меньшего размера снижает вычислительные затраты и уменьшает время ожидания, что критически важно для крупномасштабных приложений и моделей на устройстве ", - добавили Бурштейн и Чжан.