Как предотвратить кражу ChatGPT вашего контента и трафика

Carding

Professional
Messages
2,830
Reputation
17
Reaction score
2,042
Points
113
ChatGPT и аналогичные модели больших языков (LLM) еще больше усложнили постоянно растущий ландшафт онлайн-угроз. Киберпреступникам больше не нужны продвинутые навыки кодирования для совершения мошеннических действий и других атак, наносящих ущерб онлайн-бизнесу и клиентам, благодаря ботам как услуге, прокси-серверам, фермам КАПЧИ и другим легкодоступным инструментам.

Теперь ChatGPT - это новейшая технология, наносящая ущерб прибыльности бизнеса.

Не только ChatGPT, OpenAI и другие LLM поднимали этические проблемы, обучая свои модели на собранных данных из Интернета. LLM негативно влияют на веб-трафик предприятий, что может нанести огромный ущерб бизнесу.

3 риска, связанные с LLM, ChatGPT и плагинами ChatGPT
Среди угроз, которые ChatGPT и плагины ChatGPT могут представлять для онлайн-бизнеса, есть три ключевых риска, на которых мы сосредоточимся:
  1. Кража контента (или повторная публикация данных без разрешения первоисточника) может нанести ущерб авторитетности, SEO-рейтингу и воспринимаемой ценности вашего оригинального контента.
  2. Снижение посещаемости вашего веб-сайта или приложения становится проблематичным, поскольку пользователям, получающим ответы непосредственно через ChatGPT и его плагины, больше не нужно находить или посещать ваши страницы.
  3. С каждой секундой становится все более вероятнойутечка данных или даже случайное широкое распространение конфиденциальных данных. Не все "общедоступные" данные предназначены для распространения вне исходного контекста, но скребки не знают разницы. Результатом может быть что угодно - от потери конкурентного преимущества до серьезного ущерба репутации вашего бренда.
В зависимости от вашей бизнес-модели вашей компании следует рассмотреть способы отказа от использования ваших данных для обучения LLM.

3 наиболее затронутые отрасли
Отрасли, наиболее подверженные риску нанесения ущерба, вызванного ChatGPT, - это те, в которых конфиденциальность данных является главной заботой, уникальный контент и интеллектуальная собственность являются ключевыми отличительными факторами, а реклама, просмотры и уникальные посетители являются важным источником дохода. Эти отрасли включают:
  1. Электронная коммерция: описания продуктов и модели ценообразования могут быть ключевыми отличительными чертами.
  2. Потоковое вещание, медиа и публикации: все о предоставлении аудитории уникального, креативного и развлекательного контента.
  3. Классифицированные объявления: на доходы от рекламы с оплатой за клик (PPC) может серьезно повлиять снижение посещаемости сайта (а также другие проблемы ботов, такие как мошенничество с кликами или искаженная аналитика сайта из-за скребков).

Как ChatGPT получает данные обучения
Согласно исследовательской работе, опубликованной OpenAI, ChatGPT3 был обучен на нескольких наборах данных:
  • Обычный обход
  • WebText2
  • Books1 и Books2
  • Википедия
Самый большой объем обучающих данных поступает из Common Crawl, который предоставляет доступ к веб-информации через открытое хранилище данных веб-обхода. Обычный бот-обходчик, также известный как CCBot, использует Apache Nutch, чтобы позволить разработчикам создавать крупномасштабные скребки.

Самая последняя версия CCBot выполняет сканирование с Amazon AWS и идентифицирует себя с пользовательским агентом "CCBot / 2.0". Но компаниям, которые хотят разрешить CCBot, не следует полагаться исключительно на пользовательский агент для его идентификации, потому что многие плохие боты подделывают своих пользовательских агентов, чтобы замаскироваться под хороших ботов и избежать блокировки.

Чтобы разрешить CCBot на вашем веб-сайте, используйте такие атрибуты, как диапазоны IP или обратный DNS. Чтобы заблокировать ChatGPT, ваш веб-сайт должен, как минимум, блокировать трафик от CCBot.

3 способа заблокировать CCBot
  1. Robots.txt: Поскольку CCBot уважает файлы robots.txt, вы можете заблокировать его с помощью следующих строк кода:
    Code:
    User-agent: CCBot
    Disallow: /
  2. Блокировка пользовательского агента CCBot: Вы можете безопасно заблокировать нежелательного бота с помощью пользовательского агента. (Не то чтобы, напротив, разрешение трафика ботов через user agent может быть небезопасным, злоумышленники легко могут им злоупотребить.)
  3. Программное обеспечение для управления ботами: Будь то для ChatGPT или базы данных dark web, лучший способ предотвратить удаление ботами ваших веб-сайтов, приложений и API-интерфейсов - это специализированная защита от ботов, которая использует машинное обучение для реагирования на развивающиеся тактики угроз в режиме реального времени.

Проверяющие всегда могут найти обходные пути
LLM используют ботов-скребков для сбора обучающих данных. Хотя блокировка CCBot может быть эффективной для блокировки скребков ChatGPT сегодня, неизвестно, что ждет скребков LLM в будущем. В дальнейшем, если слишком много веб-сайтов блокируют OpenAI (например) доступ к своему контенту, разработчики могут решить прекратить уважать robots.txt и могут прекратить объявлять свои идентификационные данные сканера в user agent.

Другая возможность заключается в том, что OpenAI может использовать свое партнерство с Microsoft для доступа к данным scraper от Microsoft Bing, что усложнит ситуацию для владельцев веб-сайтов. Боты Bing идентифицируют себя как Bingbot, но их блокировка может вызвать проблемы, поскольку ваш сайт не будет проиндексирован в поисковой системе Bing, что приведет к уменьшению числа посетителей-людей.

Вы можете столкнуться с аналогичными проблемами, заблокировав LLM Bard от Google (конкурент ChatGPT). Google расплывчато сообщает о происхождении и сборе общедоступных данных, используемых для обучения Bard, но вполне возможно, что Bard обучается или будет обучаться с использованием данных, собранных Googlebot scrapers. Как и в случае с Bingbot, блокировка Googlebot, скорее всего, была бы неразумной, повлияв на то, как индексируется ваш сайт и как поисковая система Google привлекает трафик на ваш сайт. Результат может означать серьезное снижение числа посетителей.

Использование плагинов для доступа к оперативным данным
Одним из основных ограничений таких моделей, как ChatGPT, является отсутствие доступа к оперативным данным. Поскольку он был обучен на наборе данных, который заканчивается в 2021 году, он не может предоставлять наиболее актуальную информацию. Вот тут-то и пригодятся плагины.

Плагины используются для подключения таких LLM, как ChatGPT, к внешним инструментам и позволяют LLM получать доступ к внешним данным, доступным онлайн, которые могут включать личные данные и новости в режиме реального времени. Плагины также позволяют пользователям выполнять действия онлайн (например, бронирование авиабилетов или заказ продуктов) с помощью вызовов API.

Некоторые компании разрабатывают свои собственные плагины, чтобы предоставить пользователям новый способ взаимодействия со своим контентом / сервисами через ChatGPT. Но, в зависимости от вашей отрасли, разрешение пользователям взаимодействовать с вашим сайтом с помощью сторонних плагинов ChatGPT может означать меньшее количество рекламы, которую видят ваши пользователи, а также меньший трафик на ваш сайт.

Вы также можете заметить, что пользователи менее охотно платят за ваши премиум-функции, как только ваши функции могут быть воспроизведены с помощью сторонних плагинов ChatGPT. Например, неофициальный веб-клиент, взаимодействующий с вашим сайтом, может предлагать премиальные функции через свой пользовательский интерфейс.

Как идентифицировать запросы плагинов ChatGPT
В документации OpenAI указано, что запросы с определенным HTTP-заголовком user agent (с токеном: "ChatGPT-User") поступают от плагинов ChatGPT. Но в документации не указано, что раскрытый пользовательский агент является единственным пользовательским агентом, который может использоваться плагинами при выполнении HTTP-запросов.

Следовательно, поскольку плагины ChatGPT взаимодействуют со сторонними API, API могут выполнять любые HTTP-запросы из своей собственной инфраструктуры. На схеме ниже показано, что происходит, когда фиктивный "Плагин Live Sport" используется с ChatGPT для получения обновлений о спортивном событии.

Плагины ChatGPT

  1. ChatGPT запускает плагин Live Sport, отправляя запрос к конечным точкам API на основе параметров из пользовательского запроса.
  2. Плагин отправляет HTTP-запрос на поиск спортивного веб-сайта для получения последней информации о событии.
  3. Затем информация передается обратно конечному пользователю через ChatGPT.
Плагин действительно может отправлять запросы к спортивному API без необходимости очищать спортивный веб-сайт. Фактически, когда запросы выполняются непосредственно с сервера, на котором размещен API плагина, для пользовательского агента нет ограничений.

Как блокировать запросы плагинов ChatGPT
В процессе, аналогичном блокированию веб-скребков ChatGPT, вы можете блокировать запросы от плагинов, которые заявляют о своем присутствии с помощью подстроки "ChatGPT-User" с помощью user agent. Но блокировка пользовательского агента может также блокировать пользователей ChatGPT с активированным режимом "просмотр". И, вопреки тому, что может указывать документация OpenAI, блокировка запросов от "ChatGPT-User" не гарантирует, что ChatGPT и его плагины не смогут получить доступ к вашим данным под разными токенами user agent.

Фактически, плагины ChatGPT могут отправлять запросы непосредственно с серверов, на которых размещены их API, используя любой пользовательский агент и даже используя автоматизированные (безголовые) браузеры. Для обнаружения плагинов, которые не объявляют свою личность в user agent, требуются передовые методы обнаружения ботов.

Определение ваших следующих шагов
Получение высококачественных наборов данных контента, созданного человеком, по-прежнему будет иметь решающее значение для LLM. В долгосрочной перспективе у таких компаний, как OpenAI (частично финансируется Microsoft) и Google, может возникнуть соблазн использовать Bingbots и Googlebots для создания наборов данных для обучения своих LLM. Веб-сайтам было бы сложнее просто отказаться от сбора своих данных, поскольку большинство онлайн-компаний в значительной степени полагаются на Bing и Google для индексации своего контента и привлечения трафика на свой сайт.

Веб-сайты с ценными данными либо захотят найти способы монетизации использования своих данных, либо откажутся от обучения модели искусственного интеллекта, чтобы избежать потери веб-трафика и доходов от рекламы из-за ChatGPT и его плагинов. Если вы хотите отказаться, вам понадобятся передовые методы обнаружения ботов, такие как снятие отпечатков пальцев, определение прокси-сервера и анализ поведения, чтобы остановить ботов до того, как они смогут получить доступ к вашим данным.

Передовые решения для защиты от ботов и мошенничества используют искусственный интеллект и машинное обучение (ML) для обнаружения и остановки незнакомых ботов с первого запроса, обеспечивая безопасность вашего контента от скребков LLM, неизвестных плагинов и других быстро развивающихся технологий искусственного интеллекта.

Примечание: Эта статья написана со знанием дела и внесена Антуаном Вастелем, доктором философии, руководителем исследовательского отдела DataDome.
 
Top