Джерело:
Хабрахабр:
Дата публікації:
14/01/2021 09:25
Постійна адреса новини:
http://www.vsinovyny.com/7447757
14/01/2021 09:25 // Хабрахабр:

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.
Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.
На традиционных веб-страницах наша задача заключается в парсинге HTML и извлечении нужной информации. На современных веб-сайтах фронтэнд скорее всего не будет содержать особо много HTML, потому что данные получаются асинхронно после первого запроса. Поэтому большинство людей использует безголовые браузеры — они способны выполнять JavaScript, делать дальнейшие запросы, после чего можно распарсить всю страницу целиком.
Но существует и другой способ, которым можно довольно часто пользоваться.
Читать дальше →
| « |
Наступна новина з архіву Вылет Баварии, первый трофей Почеттино и судьба Горняка-Спорт. Главные новости за 13 января. Аудио |
Попередня новина з архіву Лучшие практики при написании безопасного Dockerfile |
» | |
|
|
||||