Поиск веб-краулинга в сравнении с поиском веб-парсинга

Одна из наших любимых цитат гласит: "Если проблема меняется на порядок, она становится другой проблемой", и в этом кроется ответ на вопрос - Краулинг или Парсинг?

Краулинг означает работу с большими наборами данных, где вы разрабатываете свои скрипты-краулеры (или боты), которые проникают в самые глубины веб-страниц. Сокращение данных, с другой стороны, относится к извлечению информации из любого источника (не обязательно из Интернета).

Чаще всего, независимо от используемых подходов, мы называем парсинг сайтов сбором, и это серьезное заблуждение.

Просмотр и Сбор данных - основные различия

1. Для сбора данных не обязательно использовать Интернет. Инструменты, помогающие в сборе данных, могут относиться к извлечению информации из локальной машины, базы данных. Даже если информация взята из Интернета, простая ссылка "Сохранить как" на странице также является подмножеством вселенной сбора данных.

С другой стороны, краулинг данных сильно отличается как по масштабу, так и по диапазону. Во-первых, краулинг = веб-краулинг, что означает, что в Интернете мы можем только "краулить" данные. Программы, которые выполняют эту невероятную работу, называются crawl agents, или ботами, или пауками.

Некоторые веб-пауки алгоритмически разработаны таким образом, чтобы достичь максимальной глубины страницы и проползать их итеративно (мы когда-нибудь говорили "проползать"?). Хотя оба способа кажутся разными, парсинг и краулинг - это в основном одно и то же.

2. Интернет - это открытый мир и квинтэссенция нашего права на свободу. Таким образом, много контента создается и затем дублируется. Например, один и тот же блог может быть размещен на разных страницах, и наши пауки этого не понимают.

Поэтому дедупликация данных является неотъемлемой частью услуги по поиску веб-данных. Это делается для достижения двух целей - чтобы наши клиенты были довольны, не наводняя их базы данных одними и теми же данными несколько раз, и чтобы сэкономить место на наших серверах. Однако дедупликация не обязательно является частью сбора веб-данных.

парсинг товаров

3. Одна из самых сложных задач в области парсинга - это координация последовательного поиска. Наши пауки должны быть вежливы с серверами, чтобы не разозлить их при сборе. Это создает интересную ситуацию. С течением времени наши пауки должны стать более умными, обучаться на полученных данных об ошибках сбора.

Они должны научиться определять, когда и как сильно пройтись по серверу, и как просматривать данные на его веб-страницах, соблюдая политику вежливости. Хотя оба варианта кажутся разными, парсинг и краулинг - это в основном одно и то же.

4. Наконец, разные агенты переползания используются для переполнения разных веб-сайтов, и поэтому вам нужно убедиться, что они не конфликтуют друг с другом в процессе. Такая ситуация никогда не возникает, когда вы собираетесь просто просмотреть данные.

Парсинг	Краулинг
Представляет собой извлечение данных из различных источников, включая веб.	Означает загрузку страниц из Интернета
Может быть выполнено в любом масштабе	В основном выполняется в больших масштабах
Дедупликация не является обязательной частью	Дедупликация является неотъемлемой частью
Требуется агент сбора и синтаксический анализатор	Нужен только агент сбора

В заключение, говоря о парсинге и краулинге. Парсинг представляет собой очень поверхностный узел краулинга, который мы называем извлечением, и для этого опять же требуется несколько алгоритмов и некоторая автоматизация.

Краулинг в сравнении с Парсингом

Просмотр и Сбор данных - основные различия

Эти статьи могут быть вам полезны

Просмотр и Сбор данных - основные различия

Услуги по теме

Кейсы из портфолио

Эти статьи могут быть вам полезны