Что такое парсинг, или Как вытащить с сайтов любые данные

Carding

Professional
Messages
2,828
Reputation
17
Reaction score
2,105
Points
113
У Анфисы есть гора разных орехов, целый килограмм. Она хочет выбрать оттуда весь миндаль. Можно делать это вручную или позвать помощников — экспертов по перебору орехов.

А теперь представьте, что гора орехов — это массив данных, миндаль — конкретные данные, которые нужно найти пользователю, а эксперты по перебору — парсеры. Добро пожаловать в мир сомнительных примеров.

Процесс перебора данных называется парсингом. Парсеры — специальные программы, которые помогают в этом. Парсить можно что угодно: книжки, фильмы, вакансии, списки победителей собачьих выставок, объявления о продаже советских подстаканников. Главное, чтобы данные были доступны на ресурсах без регистрации или чтобы программа умела там региться.

Именно с помощью парсеров кибершпана собирает базы номеров, почт с разных сайтов. Если обращали внимание, некоторые ресурсы показывают пользовательский номер только после клика по нему (например, в объявлениях на «Авито»). Это позволяет чуть усложнить парсинг.

Кстати, громкие новости о сливах баз того же «Авито» на самом деле посвящены выходкам кибершпаны, которая напарсила базу из данных, которые и так были в публичном доступе. Защита от парсеров ложится на плечи разработчиков и админов веб-ресурсов.

Парсинг бывает и с благими намерениями. В универе я дико упарывалась в научно-исследовательскую работу: писал статьи, отчёты, доклады к конференциям. Всё это дело требует поиска и анализа источников. А парсинг поможет собрать и оформить список актуальных статей и книг, отобрав только проверенные и надёжные материалы.
 
Top