Как использовать расширение Web Scraper Chrome для извлечения данных
Этот пост посвящен инструментам для парсинга "сделай сам".
Как использовать расширение Web Scraper Chrome для извлечения данных
Парсинг сайтов становится жизненно важным ингредиентом в планировании бизнеса и маркетинга независимо от отрасли. Существует несколько способов поиска полезных данных в Интернете в зависимости от ваших требований и бюджета. Знаете ли вы, что ваш любимый веб-браузер также может служить отличным инструментом для сбора данных?
Вы можете установить расширение Web Scraper из веб-магазина chrome, чтобы превратить его в простой в использовании инструмент для сбора данных.
Самое приятное, что вы можете оставаться в зоне комфорта вашего браузера, пока происходит сбор данных. Для этого не требуется много технических навыков, что делает его хорошим вариантом, когда вам нужно быстро собрать данные. Давайте начнем с урока о том, как использовать расширение Web Scraper Chrome для извлечения данных.
О расширении Web Scraper Chrome
Web Scraper - это расширение для извлечения данных из Интернета для браузера Chrome, созданное исключительно для сбора данных из Интернета. Вы можете задать план (sitemap) навигации по веб-сайту и указать данные для извлечения.
Парсер будет перемещаться по сайту в соответствии с настройками и извлекать нужные данные. Он позволяет экспортировать извлеченные данные в CSV. С помощью этого инструмента можно парсить несколько страниц, что делает его еще более мощным. Он может извлекать данные даже из динамических страниц, использующих Javascript и Ajax.
Что вам нужно
- Браузер Google Chrome
- Рабочее подключение к Интернету
A. Установка и настройка
- Установите расширение Web Scraper chrome
- Для загрузки расширения web scraper chrome нажмите на кнопку "Добавить".
Как только это будет сделано, вы будете готовы начать парсинг любого веб-сайта с помощью браузера chrome. Вам просто нужно узнать, как выполнять парсинг данных, о чем мы сейчас расскажем.
B. Метод
После установки откройте инструменты разработчика Google Chrome, нажав F12. (В качестве альтернативы можно щелкнуть правой кнопкой мыши на экране и выбрать пункт inspect element). В инструментах разработчика вы найдете новую вкладку под названием "Веб-парсер"
Теперь давайте посмотрим, как использовать это на живой веб-странице. Для этого урока мы будем использовать сайт под названием www.awesomegifs.com.
Этот сайт содержит gif-изображения, и мы будем просматривать URL-адреса этих изображений с помощью нашего парсера.
Шаг 1: Создание файла Sitemap
- Перейдите на сайт https://www.awesomegifs.com/.
- Откройте инструменты разработчика, щелкнув правой кнопкой мыши в любом месте экрана и выбрав пункт inspect.
- Перейдите на вкладку "Веб-парсер" в инструментах разработчика
- Нажмите "Создать новую карту сайта", а затем выберите "Создать карту сайта".
- Дайте карте сайта имя и введите URL-адрес сайта в поле начального URL-адреса.
- Нажмите кнопку "Создать карту сайта".
Чтобы просматривать несколько страниц сайта, нам необходимо понять структуру пагинации этого сайта. Это можно легко сделать, несколько раз нажав кнопку "Далее" на главной странице.
На сайте Awesomegifs.com было обнаружено, что страницы структурированы как https://awesomegifs.com/page/1/, https://awesomegifs.com/page/2/ и так далее. Чтобы перейти на другую страницу, достаточно изменить номер в конце этого URL. Теперь нам нужно, чтобы парсер делал это автоматически.
Для этого создайте новую карту сайта с начальным URL https://awesomegifs.com/page/[001-125]. Теперь парсер будет открывать URL несколько раз, каждый раз увеличивая конечное значение. Это означает, что парсер будет открывать страницы, начиная с 1 по 125, и вылавливать элементы, которые нам нужны на каждой странице.
Шаг 2: Сбор элементов
Каждый раз, когда парсер открывает страницу сайта, нам нужно извлечь некоторые элементы. В данном случае это URL-адреса gif-изображений.
Сначала необходимо найти CSS-селектор, соответствующий изображениям. Селектор CSS можно найти, просмотрев исходный файл веб-страницы (CTRL+U). Более простой способ - использовать инструмент селектора, чтобы щелкнуть и выбрать любой элемент на экране. Щелкните только что созданный файл Sitemap и нажмите кнопку "Добавить новый селектор".
В поле id селектора дайте селектору имя. В поле тип выберите тип данных, которые необходимо извлечь. Нажмите на кнопку select и выберите любой элемент на веб-странице, который необходимо извлечь. Когда вы закончите выбор, нажмите кнопку "Готово".
Это просто, как щелкнуть мышью по значку. Вы можете установить флажок 'multiple', чтобы указать, что нужный вам элемент может присутствовать на странице несколько раз и что вы хотите, чтобы каждый его экземпляр был удален.
Теперь вы можете сохранить селектор, если все выглядит хорошо. Чтобы начать процесс отбора, просто нажмите на вкладку sitemap и выберите 'Scrape'. Появится новое окно, которое посетит каждую страницу в цикле и соберет необходимые данные. Если вы хотите остановить процесс парсинга данных, просто закройте это окно, и вы получите данные, которые были извлечены до этого момента.
Как только вы остановите процесс парсинга, перейдите на вкладку sitemap, чтобы просмотреть извлеченные данные или экспортировать их в CSV-файл. Единственным недостатком такого программного обеспечения для извлечения данных является то, что вам придется каждый раз вручную выполнять поиск, так как в нем нет многих функций автоматизации.
Если вы хотите собирать данные в больших масштабах, лучше воспользоваться услугами по сбору данных, а не такими бесплатными инструментами извлечения данных, как эти. Во второй части этой серии мы покажем вам, как создать базу данных MySQL, используя извлеченные данные. Оставайтесь с нами!