- Скрипт парсер сайта www.cian.ru
ЯП: Python
Модули: Selenium, Selenium-stealth, bs4, Asyncio
База: -
Скрипт парсера площадки www.cian.ru, который легко переписать под любые другие площадки.
2) Устанавливаем модули:
pip install -r requiremets.txt
3) В файле main.py вставляете URL в формате 'https://www.cian.ru/cat.php?deal_ty...&offer_type=flat&p=2®ion=1&room1=1&room2=1', где p - страница начала парсинга, PATH менять не нужно, как и NON_BOOST - он добавляет рейтинг продавца, но замедляет парсинг.
4) Меняете количество страниц COUNT_PAGE, которые необходимо спарсить, по дефолту 5. Больше 54 спарсить не получится, т.к нужно переписывать пагинацию, которая изменяется на 54 странице. Но обойти это можно путем использования библиотеки multiprocessing и взаимоисключающих фильтров.
5) Получаем желаемые данные в формате csv.
Парсит достаточно долго, поэтому желательно использовать multiprocessing и разбивать 54 страницы после каждой фильтрации на пару ссылок.
Ссылка для скачивания:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.