Краулинг в сравнении с Парсингом
Одна из наших любимых цитат гласит: "Если проблема меняется на порядок, она становится другой проблемой", и в этом кроется ответ на вопрос - Краулинг или Парсинг?
Краулинг означает работу с большими наборами данных, где вы разрабатываете свои скрипты-краулеры (или боты), которые проникают в самые глубины веб-страниц. Сокращение данных, с другой стороны, относится к извлечению информации из любого источника (не обязательно из Интернета).
Чаще всего, независимо от используемых подходов, мы называем парсинг сайтов сбором, и это серьезное заблуждение.
Просмотр и Сбор данных - основные различия
1. Для сбора данных не обязательно использовать Интернет. Инструменты, помогающие в сборе данных, могут относиться к извлечению информации из локальной машины, базы данных. Даже если информация взята из Интернета, простая ссылка "Сохранить как" на странице также является подмножеством вселенной сбора данных.
С другой стороны, краулинг данных сильно отличается как по масштабу, так и по диапазону. Во-первых, краулинг = веб-краулинг, что означает, что в Интернете мы можем только "краулить" данные. Программы, которые выполняют эту невероятную работу, называются crawl agents, или ботами, или пауками.
Некоторые веб-пауки алгоритмически разработаны таким образом, чтобы достичь максимальной глубины страницы и проползать их итеративно (мы когда-нибудь говорили "проползать"?). Хотя оба способа кажутся разными, парсинг и краулинг - это в основном одно и то же.
2. Интернет - это открытый мир и квинтэссенция нашего права на свободу. Таким образом, много контента создается и затем дублируется. Например, один и тот же блог может быть размещен на разных страницах, и наши пауки этого не понимают.
Поэтому дедупликация данных является неотъемлемой частью услуги по поиску веб-данных. Это делается для достижения двух целей - чтобы наши клиенты были довольны, не наводняя их базы данных одними и теми же данными несколько раз, и чтобы сэкономить место на наших серверах. Однако дедупликация не обязательно является частью сбора веб-данных.
3. Одна из самых сложных задач в области парсинга - это координация последовательного поиска. Наши пауки должны быть вежливы с серверами, чтобы не разозлить их при сборе. Это создает интересную ситуацию. С течением времени наши пауки должны стать более умными, обучаться на полученных данных об ошибках сбора.
Они должны научиться определять, когда и как сильно пройтись по серверу, и как просматривать данные на его веб-страницах, соблюдая политику вежливости. Хотя оба варианта кажутся разными, парсинг и краулинг - это в основном одно и то же.
4. Наконец, разные агенты переползания используются для переполнения разных веб-сайтов, и поэтому вам нужно убедиться, что они не конфликтуют друг с другом в процессе. Такая ситуация никогда не возникает, когда вы собираетесь просто просмотреть данные.
Парсинг | Краулинг |
---|---|
Представляет собой извлечение данных из различных источников, включая веб.
|
Означает загрузку страниц из Интернета |
Может быть выполнено в любом масштабе | В основном выполняется в больших масштабах |
Дедупликация не является обязательной частью |
Дедупликация является неотъемлемой частью |
Требуется агент сбора и синтаксический анализатор |
Нужен только агент сбора |
В заключение, говоря о парсинге и краулинге. Парсинг представляет собой очень поверхностный узел краулинга, который мы называем извлечением, и для этого опять же требуется несколько алгоритмов и некоторая автоматизация.