Предположим, мы хотим просканировать определенный каталог с веб-сайта, где имена страниц являются целыми идентификаторами в определенном диапазоне, например /book/BOOK_ID
, где BOOK_ID — от 0 до 2 000 000, я не хочу сканировать весь веб-сайт и нет ни одной страницы. содержащий все ссылки. Использование поисковых страниц не разрешено (для пустого поиска) или неэффективно. Итак, мы просто хотим перебрать все эти идентификаторы в этом диапазоне, попытаться загрузить страницы и просто проигнорировать ошибку 404.
Но поскольку Scrapy довольно мощный и огромный и справляется со многими другими вещами, я хочу знать, возможно ли это с помощью Scrapy.