Законен ли парсинг данных - все, что вам нужно знать

Бизнес, связанный с парсингом веб-страниц, сталкивается с этим вопросом на всех возможных платформах. Наш ответ на этот обыденный вопрос - законно ли собирать веб-страницы автоматизированными скриптами? Да, черт возьми!

Парсинг означает получение контента с веб-страниц автоматизированным способом, в отличие от ручного открытия каждой страницы в браузере. Вызовы, выполняемые агентом браузера к целевому серверу, на котором размещена веб-страница, похожи на то, как бот заходит на страницу, чтобы получить ее содержимое.

Почему же парсинг скриптами является табу среди тех, кто только научился использовать этот термин? В основном потому, что он довольно часто используется вопреки политике сайта и нарушает основные правила парсинга данных.

Вот несколько правил, которым следует придерживаться, если вы хотите, чтобы бот вел себя по-человечески.

  • Robots.txt - считайте это фильтром и формой согласия, которую вы должны соблюдать, если собираетесь ползать по сайту. Он сообщает вам, какие URL вы можете/не можете просматривать. Это редко зависит от бота - даже бот Google не сможет спарсить заблокированную страницу, если только сайт не беспокоится о SEO этой страницы.
  • Публичный контент - собирайте только по публичному контенту, помня о политике авторского права. Если скрипт ходит по сайту только для того, чтобы воспроизвести тот же контент на новом сайте, удачи вам!
  • Условия использования - проверьте условия использования сайта и убедитесь, что между вами и сайтом все в порядке.
  • Сайты, основанные на аутентификации - некоторые сайты требуют аутентификации, прежде чем вы сможете получить доступ к их содержимому, и в большинстве случаев это препятствует парсингу, поскольку они хотят, чтобы в систему входили только настоящие люди.
  • Задержка парсинга - в robots.txt также указана задержка между последовательными обращениями, если она вообще есть, чтобы убедиться, что вы не слишком сильно бьете по их серверам. Если вы перегрузите их запросами, есть шанс, что ваш IP будет заблокирован.

парсинг цен

Если вы выполнили все вышеперечисленные пункты и все еще ищете спокойнго парсинга, давайте рассмотрим, почему парсинг вообще стал возможным:

  1. Содержимое веб-сайта делается публичным, чтобы оно дошло до широкой публики. Чем больше аудитория, тем дороже реклама. Парсинг только усиливает это явление, если следует вышеуказанным правилам.
  2. На некоторых сайтах хранятся огромные объемы информации, которые трудно усвоить вручную, поэтому (как и во всех других технологических вмешательствах) необходимо вмешательство бота-парсера.
  3. Многие компании в наши дни развиваются на основе данных, которые они собирают от множества других компаний (подумайте об парсинге и анализе данных). Хотя они не заключали сделок с каждым из этих хостеров веб-сайтов, они создали/арендовали сложный технологический стек собственными силами, чтобы получать разнообразные данные. Этот процесс всегда помогал новым компаниям выходить в рынок.

Вывод: парсинг сайтов - это не тайная деятельность. Это просто еще один способ сбора данных, который требует больших интеллектуальных способностей.

P.S. Мы не юристы, и этот пост написан на основе наших ограниченных знаний о парсинге, который является неотъемлемой частью наших решений для работы с большими данными, предоставляемых клиентам.