Что такое паук поисковой системы?

Carder

Professional
Messages
2,619
Reputation
9
Reaction score
1,719
Points
113
Пауки поисковых машин, иногда называемые сканерами, используются поисковыми системами Интернета для сбора информации о веб-сайтах и отдельных веб-страницах. Поисковым системам нужна информация со всех сайтов и страниц; иначе они не знали бы, какие страницы отображать в ответ на поисковый запрос и с каким приоритетом.

Пауки поисковых систем ползают по Интернету и создают очереди веб-сайтов для дальнейшего исследования. Когда конкретный веб-сайт покрывается пауком, паук читает весь текст, гиперссылки, метатеги (метатеги - это ключевые слова в специальном формате, вставленные в веб-страницу таким образом, чтобы он мог их найти и использовать) и код. Используя эту информацию, паук предоставляет поисковой системе профиль. Затем паук собирает дополнительную информацию, переходя по гиперссылкам на веб-странице, что дает ему лучший сбор данных об этих страницах. Это причина того, что наличие ссылок на вашей веб-странице - и, что еще лучше, других веб-страниц, ведущих на вашу, - так полезно для того, чтобы ваш веб-сайт был найден поисковыми системами.

У пауков есть четыре основных режима сбора информации. Один тип пауков используется только для создания очередей веб-страниц для поиска другими пауками. Этот паук, работающий в режиме «выбора», определяет приоритеты, какие страницы нужно просмотреть, и проверяет, была ли уже загружена более ранняя версия страницы. Второй режим - это паук, разработанный специально для просмотра страниц, которые уже были просмотрены пауком. Этот режим называется «повторное посещение». Некоторые поисковые системы обеспокоены тем, что страница была слишком тщательно просканирована другими пауками, поэтому они используют режим пауков, называемый «вежливостью», который ограничивает сканирование перегруженных страниц. Наконец, «распараллеливание» позволяет пауку координировать свои усилия по сбору данных с другими пауками поисковых систем, которые просматривают ту же страницу.
 
Top