[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

Джерело:
Хабрахабр:

Дата публікації:
14/01/2021 09:25

Постійна адреса новини:
http://www.vsinovyny.com/7447757

[Перевод] Скрапинг современных веб-сайтов без headless-браузеров

 

14/01/2021 09:25 // Хабрахабр:



Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.

Но существует и другой способ, которым можно довольно часто пользоваться.
Читать дальше →

 

» Читати повністю

 

« Наступна новина з архіву
Вылет Баварии, первый трофей Почеттино и судьба Горняка-Спорт. Главные новости за 13 января. Аудио
  Попередня новина з архіву
Лучшие практики при написании безопасного Dockerfile
»

 

 
© 2026 www.vsinovyny.com