Веб-парсинг - мастерство или преступление?

Успех бизнеса больше не зависит только от персонала и навыков работников. Хотя они по-прежнему важны, сегодня бизнес в основном полагается на данные. Неважно, насколько хорош ваш продукт или услуга, если у вас нет данных о клиентах или заказчиках, чтобы знать о тенденциях рынка.

  •     желаемые характеристики
  •     конкурентное ценообразование
  •     обновления продукта

Качественные данные имеют беспрецедентное применение. Поскольку парсинг сайтов является законным, не стоит удивляться, что компании собирают данные как из внутренних, так и из внешних источников. Среди внешних источников небольшой процент данных собирается в форме опросов, а остальные данные берутся из Интернета. Данные, взятые из Интернета, являются общедоступными, их может увидеть и скопировать любой желающий. Однако если вы пытаетесь скопировать те же данные в автоматическом режиме, к вам будут применены некоторые правила.

Например, вы можете парсить текстовый контент с веб-сайтов. Но если вы пытаетесь соскрести данные со слишком большого количества веб-страниц одного сайта и это приводит к замедлению работы сайта, то это может вызвать юридические проблемы. Разница здесь в том, что во втором случае ваши действия вызвали проблемы с доступностью для других пользователей того же сайта.

Законно ли использование данных?

Нет ничего противозаконного в том, чтобы собирать данные, хранить их в базах данных, а затем повторно использовать для принятия бизнес-решений, анализа данных и маркетинговых исследований. Однако если вы хотите представить те же данные на своем сайте или в приложении, то вы можете быть связаны различными условиями и положениями. Эти условия будут зависеть от фактического источника данных.

Для создателей контента, которые берут цифры, графики и изображения из других статей в Интернете, может подойти простое указание авторства. В случаях, когда информация о продукте или оригинальный контент были взяты и большая их часть была использована повторно, вам, возможно, придется запросить разрешение у владельцев сайта. Некоторые важные факторы, о которых следует помнить при поиске данных -

  •     Условия и положения веб-сайта.
  •     Сбор персональных данных (особенно с сайтов социальных сетей).
  •     Правила интеллектуальной собственности в регионе (поскольку не во всех странах могут действовать одинаковые правила).

Стоит также отметить, что существует множество упоминаний о том, что парсинг находится в серой зоне закона - ничто не может быть дальше от истины. Эта деятельность регулируется и имеет свои правила, но, как видно из многочисленных судебных решений, она не является незаконной!

спарсить сайт

Последние судебные решения - и их последствия

  1. Данные, относящиеся к физическим лицам, в настоящее время защищены такими законами, как GDPR в ЕС и CCPS в Калифорнии. Польский суд первым вынес решение, в котором оштрафовал компанию, занимающуюся анализом данных, примерно на 221 000 евро за соскабливание общедоступных данных о 6 миллионах человек. Несмотря на то, что персональные данные могут быть общедоступными, необходимо изучить существующие законы и убедиться в их соответствии. В большинстве случаев это может потребовать отправки уведомления каждому человеку, чьи данные будут собираться или использоваться, и парсинга данных только тех, кто не возражает.
  2. Дело LinkedIn против HiQ Labs, возможно, является одним из самых известных и длительных судебных разбирательств по поводу парсинга. Последняя является компанией по анализу данных, которая потребляет публичные данные из профилей LinkedIn. В основном решении суда Девятого округа упоминалось, что разрешение не распространяется на публичные веб-сайты. Он также указал, что выборочное запрещение компаниям доступа к общедоступным данным может считаться недобросовестной конкуренцией и иметь последствия в соответствии с антимонопольным законодательством. Это решение создает равные условия, при которых все, кто занимается сбором данных из аналогичных источников, будут оцениваться по одним и тем же критериям.
  3. Одним из самых ранних судебных исков по поводу парсинга сайтов был иск, поданный eBay против Bidder's Edge, сайта аукционных объявлений. Хотя eBay выиграл иск, утверждая, что прежняя компания, часто собирающая данные аукциона с их сайта, наносит ущерб их системам, и другие компании могут последовать ее примеру, что приведет к увеличению нагрузки на их серверы, несколько судей позже заявили, что это дело не может служить прецедентом в последующих делах, и тот же аргумент может оказаться неубедительным.

Плюсы и минусы

Независимо от того, какова ваша конечная цель, существуют некоторые основные правила и лучшие практики, которым вы можете следовать при сборе данных из Интернета.

  • На таких сайтах, как Twitter, где разработчикам предоставляются API, старайтесь использовать их, а не парсить веб-сайт, даже если вам придется платить, когда потребление API превысит установленный лимит.
  • Старайтесь выдерживать здоровый временной интервал в несколько секунд при парсинге нескольких страниц с одного сайта, чтобы не перегружать систему.
  • Убедитесь, что вы знаете правила региона и прочитали условия и положения сайта, прежде чем использовать данные, спарсенные с него, в коммерческих целях.
  • При парсинге данных, которые находятся за страницей входа в систему, убедитесь, что вы следуете правилам соответствующего сайта.

Веб-парсинг используется не только компаниями, но и исследователями, студентами, специалистами по работе с данными и практически всеми, кто пытается собрать данные. Обычно это предшествует тестированию моделей и алгоритмов машинного обучения.

Если данные не используются в исходном формате, а используются только результаты или тенденции, как это происходит в большинстве случаев, вы редко столкнетесь с какими-либо препятствиями. Это будет справедливо при условии, что данные были получены правильно.

Однако использование отсканированных данных в коммерческих целях может оказаться совсем другой игрой. Если будет доказано, что вы используете спарсенные данные без каких-либо изменений, точно так же, как и оригинальная веб-страница, то вы можете быть оштрафованы и, возможно, должны будете возместить ущерб сайту, с которого вы собрали данные.