[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

Джерело:
Хабрахабр / Захабренные / Тематические / Посты

Дата публікації:
14/01/2021 09:25

Постійна адреса новини:
http://www.vsinovyny.com/7448000

[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

14/01/2021 09:25 // Хабрахабр / Захабренные / Тематические / Посты

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.

Но существует и другой способ, которым можно довольно часто пользоваться.
Читать дальше →

» Читати повністю

«	Наступна новина з архіву Как не держать лишнее железо и справляться с ростом нагрузки: внедрение graceful degradation в Яндекс.Маркете	Попередня новина з архіву CRUD для NMAP’а: решение для мониторинга открытых портов на хостах	»