Обзор лучших практик парсинга

В компании ESK Solutions мы заботимся о том, чтобы наши услуги обеспечивали соблюдение прав сайтов и компаний, чьи данные мы парсим.

Мы часто слышим, что парсинг - это юридически "серая зона", но на самом деле сам парсинг не является незаконным. В серую зону попадает то, как и что вы используете.

В этой статье мы дадим вам ряд рекомендаций по поиску информации в Интернете, чтобы вы знали, когда нужно быть осторожным в выборе способа и типа данных, которые вы парсите.

Заявление об отказе от ответственности: мы не являемся вашим юристом и рекомендации в этом руководстве не являются юридической консультацией. Наш руководитель юридического отдела не оказывает вам юридические услуг, поэтому ни одно из его мнений или рекомендаций в этом руководстве не является юридической консультацией для вас. Комментарии и рекомендации, изложенные ниже, основаны на опыте компании ESK Solutions, которая помогает нашим клиентам соблюдать правовые нормы при парсинге данных. Если вы хотите получить помощь в вашей конкретной ситуации, вам следует обратиться к юристу.

Не будьте обузой

Первое правило работы с веб-страницами гласит: не навреди сайту. Второе правило парсинга гласит: НЕ причиняйте вреда веб-сайту. Это означает, что объем и частота запросов, которые вы делаете, не должны нагружать серверы сайта или мешать его нормальной работе.

Этого можно добиться несколькими способами:

  1. Ограничить количество одновременных запросов к одному и тому же сайту с одного IP.
  2. Соблюдайте задержку, которую краулеры должны выполнять между запросами, следуя директиве crawl-delay, указанной в файле robots.txt.
  3. Если возможно, будет более правильным, если вы сможете запланировать парсинг в непиковые часы работы сайта.

Важным аспектом этого правила является предоставление веб-администраторам сайтов, которые вы сканируете, легкого способа связаться с вами. Если вы когда-либо получите сообщение о нарушении с сайта, который вы парсите, вам следует либо прекратить парсинг сайта, либо ограничить его, чтобы устранить нарушения.

Не нарушайте авторские права

При парсинге сайта вы всегда должны учитывать, защищены ли данные, которые вы планируете извлечь, авторским правом.

Авторское право определяется как исключительное юридическое право на физическое произведение - статью, картину, фильм и т.д. По сути, это означает, что если вы его создали, то вы им владеете. Для того чтобы работа могла быть защищена авторским правом, она должна быть оригинальной и материальной.

Распространенными видами материалов в Интернете, которые могут быть защищены авторским правом, являются:

  • Статьи
  • Видео
  • Фотографии
  • Музыка
  • Базы данных

Таким образом, авторское право очень важно для парсинга, поскольку большая часть данных в интернете (например, статьи и видео) являются произведениями, защищенными авторским правом.

Однако есть некоторые ситуации, когда для всех или части данных могут применяться исключения, позволяющие законно использовать их без нарушения авторских прав владельца.

Добросовестное использование

Добросовестное использование - это исключение, которое разрешает ограниченное использование материалов, защищенных авторским правом. Как правило, добросовестное использование включает такие категории, как критика/пародия, комментарий, сообщение новостей, преподавание, научная деятельность и исследования. Одним из примеров добросовестного использования является публикация коротких фрагментов статей со ссылками, что, как правило, не противоречит исключению о добросовестном использовании в связи с преобразующим и ограниченным характером использования.
Факторы, обычно используемые для определения того, применимо ли исключение о добросовестном использовании, следующие:

  1. цель и характер использования (т.е. является ли оно преобразующим в каком-то смысле);
  2. характер произведения (т.е. факт против вымысла или опубликованное против неопубликованного); 
  3. количество использованного материала, чем меньше вы копируете, тем лучше; 
  4. влияние на потенциальный рынок, то есть степень, в которой ваше использование может лишить владельца дохода или потенциальной рыночной возможности.

спарсить

Трансформирующее использование

Одним из факторов при определении добросовестного использования является то, является ли использование преобразующим. Вместо того, чтобы распространять и хранить точные дубликаты или длинные фрагменты просмотренного веб-сайта, преобразуйте содержание и использование содержания каким-либо образом, чтобы не нарушить авторское право.

Факты

Факты, содержащиеся в материалах, защищенных авторским правом, часто не подпадают под действие законов об авторском праве, поэтому если вы ограничиваете парсинг только фактическими данными, т.е. названиями продуктов, ценами и т.д., то такой парсинг допустим.

Обратите внимание, что в разных странах существуют различные исключения из закона об авторском праве, и вы всегда должны быть уверены, что исключение применимо в той юрисдикции, в которой вы работаете.

Не нарушайте GDPR

Введение GDPR полностью меняет то, как вы можете парсить персональные данные или личные данные граждан ЕС (а иногда и неграждан ЕС). 

Вэтом разделе мы вкратце расскажем о лучших практиках, когда речь идет о парсинге персональных данных. Персональные данные - это любые данные, которые могут идентифицировать отдельного человека:

  • Имя
  • Электронная почта
  • Номер телефона
  • Адрес
  • Имя пользователя
  • IP-адрес
  • Информация о банке или данных кредитной карты
  • Медицинские данные
  • Биометрические данные

Если у вас нет "законных оснований" для парсинга и хранения этих данных, вы нарушите GDPR, если какие-либо данных, полученных в результате праинга, принадлежат гражданам. В случае парсинга наиболее распространенными законными основаниями являются законный интерес и согласие.

Согласие

Для того чтобы согласие было законным основанием для парсинга данных какого-либо лица, вам необходимо получить явное согласие этого лица на парсинг, хранение и использование его данных в соответствии с вашими намерениями. Это означает, что вы или третья сторона должны были вступить в прямой контакт с этим человеком, и он согласился на условия, позволяющие вам парсить его данные.

Примером могут служить такие компании, как Mint.com, где пользователи дают согласие Mint на вход в свои банковские счета в Интернете и получение своих банковских операций, чтобы их можно было отслеживать и отображать в более удобном для пользователя формате на Mint.com.

Законный интерес

Большинству компаний будет очень сложно доказать, что у вас есть законный интерес в сборе чьих-либо личных данных.

В большинстве случаев только правительства, правоохранительные органы и т.д. имеют законный интерес в сборе личных данных своих граждан, так как они обычно собирают личные данные людей для общественного блага.

Остерегайтесь правил и условий авторизации и входа на веб-сайт

Когда вы входите в систему и/или явно соглашаетесь с правилами и условиями сайта, вы заключаете договор с владельцем сайта, тем самым соглашаясь с его правилами относительно парсинга. В них может быть прямо указано, что вам запрещено парсить какие-либо данные на сайте.

Это означает, что вам необходимо внимательно изучить условия и положения, с которыми вы соглашаетесь, если вашим краулерам приходится входить в систему для парсинга данных, поскольку в них может быть указано, что вам запрещено парсить их данные. Вы всегда должны соблюдать условия любого договора, который вы заключаете, включая условия и положения веб-сайта и политику конфиденциальности.

Ищете данные, извлеченные из Интернета? Мы парсим нужные вам данные и предоставляем их в том виде, в котором вы хотели бы их получить. Просто сообщите нам, что вам нужно.

Узнайте больше о прасинге

Компания ESK Solutions работает в сфере парсинга уже 5 лет. За это время мы накопили огромный опыт и знания в области парсинга данных.