[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

Дата публікації:
14/01/2021 09:25

Постійна адреса новини:
http://www.vsinovyny.com/7447757

[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

14/01/2021 09:25 // Хабрахабр:

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.

Но существует и другой способ, которым можно довольно часто пользоваться.
Читать дальше →

» Читати повністю

«	Наступна новина з архіву Вылет Баварии, первый трофей Почеттино и судьба Горняка-Спорт. Главные новости за 13 января. Аудио	Попередня новина з архіву Лучшие практики при написании безопасного Dockerfile	»