Читайте и уважайте файл Robots.txt

Robots.txt - это файл, используемый веб-сайтами для того, чтобы "поисковые боты" знали, должен ли сайт просматриваться и индексироваться поисковой системой. Многие сайты просто запрещают ползать по ним, то есть сайт не должен просматриваться поисковыми системами или другими ботами. Когда вы пытаетесь извлечь данные из Интернета, очень важно понимать, что такое robots.txt и как читать и соблюдать robots.txt, чтобы избежать юридических последствий.

Почему вы должны читать и уважать файл robots.txt?

Уважение к robots.txt не должно быть связано с тем, что нарушители попадут в юридические осложнения. Точно так же, как вы должны соблюдать дисциплину движения по полосам во время езды по шоссе, вы должны уважать файл robots.txt сайта, который вы просматриваете. Это считается стандартным поведением в Интернете и отвечает интересам веб-издателей.

Многие веб-сайты предпочитают блокировать пауков-ботов, потому что их содержимое носит конфиденциальный характер и малополезно для общественности. Если это не является достаточно веской причиной для соблюдения правил robots.txt, обратите внимание, что посещение сайта, на котором запрещены боты, может привести к судебному разбирательству и закончиться плачевно для фирмы или частного лица. Давайте теперь перейдем к тому, как вы можете следовать правилам robots.txt, чтобы оставаться в безопасной зоне.

Правила Robots.txt

1. Разрешить полный доступ

User-agent: *
Disallow:

Если вы найдете это в файле robots.txt сайта, который вы пытаетесь спарсить, вам повезло. Это означает, что все страницы сайта доступны для ботов.

2. Блокировать весь доступ

User-agent: *
Disallow: /

Вам следует держаться подальше от сайтов с такой записью в robots.txt. В нем говорится, что ни одна часть сайта не должна быть посещена с помощью автоматизированного скрипта-паука, и нарушение этого правила может привести к юридическим неприятностям.

3. Частичный доступ

User-agent: *

Disallow: /folder/

User-agent: *

Disallow: /file.html

Некоторые сайты запрещают просмотр только определенных разделов или файлов на своем сайте. В таких случаях вы должны настроить своих ботов на то, чтобы они оставляли заблокированные области нетронутыми.

спарсить базу данных

4. Ограничение скорости сбора

Crawl-delay: 11

Этот параметр используется для ограничения слишком частых посещений сайта парсерами. Поскольку частое посещение сайта парсерами может привести к нежелательной нагрузке на сервер и сделать сайт медленным для посетителей, многие сайты добавляют эту строку в файл robots. В этом случае сайт может быть просмотрен с задержкой в 11 секунд.

5. Время посещения

Visit-time: 0400-0845

Это указывает краулерам часы, когда разрешено парсить сайт. В данном примере сайт можно просматривать с 04:00 до 08:45 по Гринвичу. Сайты делают это, чтобы избежать нагрузки от ботов в часы пиковой нагрузки.

6. Скорость запроса

Request-rate: 1/10

Некоторые сайты не приветствуют ботов, пытающихся получить несколько страниц одновременно. Частота запросов используется для ограничения такого поведения. Значение 1/10 означает, что сайт разрешает ботам запрашивать одну страницу каждые 10 секунд.

Быть хорошим ботом

Хорошие боты соблюдают правила, установленные веб-сайтами в их файле robots.txt, и следуют передовым методам при парсинге. Само собой разумеется, что вы должны изучить файл robots.txt каждого целевого сайта, чтобы убедиться, что вы не нарушаете никаких правил.

Запутались?

Нередко вы чувствуете себя запуганным из-за сложного технического жаргона и правил, связанных с веб-парсингом.

Если вы оказались в ситуации, когда вам необходимо извлечь данные из Интернета, но вас смущают вопросы соответствия нормативным требованиям, мы будем рады стать вашим партнером по сбору данных и взять на себя ответственность за весь процесс.