Nano Hash - криптовалюты, майнинг, программирование

Scrapy — попробуйте все идентификаторы внутри каталога без рекурсивного поиска ссылок

Предположим, мы хотим просканировать определенный каталог с веб-сайта, где имена страниц являются целыми идентификаторами в определенном диапазоне, например /book/BOOK_ID, где BOOK_ID — от 0 до 2 000 000, я не хочу сканировать весь веб-сайт и нет ни одной страницы. содержащий все ссылки. Использование поисковых страниц не разрешено (для пустого поиска) или неэффективно. Итак, мы просто хотим перебрать все эти идентификаторы в этом диапазоне, попытаться загрузить страницы и просто проигнорировать ошибку 404.

Но поскольку Scrapy довольно мощный и огромный и справляется со многими другими вещами, я хочу знать, возможно ли это с помощью Scrapy.


Ответы:


1

Да, это возможно. Используйте start_requests(), чтобы начать запросы на /book/BOOK_ID страницы:

def start_requests(self):
    for book_id in xrange(1, 20000000):
        yield Request('https://my_site.com/book/{book_id}'.format(book_id=book_id),
                      callback=self.parse_book)

def parse_book(self, response):
    # parse the response

Кроме того, Scrapy по умолчанию игнорирует 404. Но, если вам нужно, вы можете справиться с этим, см.:

11.01.2015
Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..