Тестовое задание для Web Security Fellowship.
Скрипт-парсер для скачивания фотографий работников департаментов МинОбрНауки РФ.
Склонировать репозиторий и перейти в него в командной строке:
git clone https://github.com/chaplinskiy/wsf_scraper.gitcd wsf_scraperCоздать и активировать виртуальное окружение:
python3 -m venv envsource env/bin/activateУстановить зависимости из файла requirements.txt:
pip install -r requirements.txtЗапустить скрипт:
python3 scraper.pyФотографии скачаются в папку data/jpg/.
Однофамильцы фильтруются только по первому инициалу (т.е. по имени).
Если на сайте МинОбра вместо реальной фотографии сотрудника висит плейсхолдер – он тоже скачается. Таких случаев будет немного, их можно обработать вручную.