эффективная фильтрация по диапазону дат в pandas

Большой фрейм данных имеет столбец date. Используя pandas.read_csv(..., parse_dates=["date"]) для чтения данных, я предполагаю, что столбец был преобразован в эффективный тип данных для представления дат.

Теперь задача состоит в том, чтобы выбрать все элементы, которые попадают в диапазон дат, например. ("2018-01-01", "2018-12-31"). Это может быть очень быстро, если иметь столбец date в отсортированной форме и использовать двоичный поиск для поиска ограничивающих индексов.

Но как мне сказать это пандам? Достаточно ли отсортировать по столбцу и выполнить по нему запрос? Должен ли я сделать это pandas.DateTimeIndex и использовать .loc?

Одним из возможных предостережений является то, что у элементов уже есть MultiIndex, который необходимо сохранить нетронутым. Кроме того, мне не нужно более одной копии фрейма данных в памяти.

18.03.2019

Вы пробовали с numpy и searchsorted? Взгляните на stackoverflow.com/questions/28031346/ 18.03.2019
@ Николас, я попробую. Но мне также любопытно, действительно ли необходимо идти в numpy. 18.03.2019
Используйте логическую серию с .loc, проверяя, если df['date'].between("2018-01-01", "2018-12-31"), или просто если df.date.dt.year==2018 18.03.2019
@clstaudt Nupy во многих отношениях поддерживает Pandas, поэтому не так уж и странно сразу использовать numpy 18.03.2019
@ Николас, я согласен, это не странно. Тем не менее, я надеюсь узнать кое-что о pandas DataFrame здесь: есть ли способ настроить DataFrame так, чтобы df dot get me the items from start_date to end_date был эффективным. Использование numpy.searchsorted возможно, но недостаточно просто. 18.03.2019
@ALollz это эффективно, то есть O (log (n)) а не O (n)? 18.03.2019
Нет, маска Булена равна ~O(n). В этом сообщении есть полезная информация: stackoverflow.com/questions/45240803/ 18.03.2019
@ALollz То, что вы предлагаете, - это статус-кво, который я пытаюсь изменить. Это не так быстро, как могло бы быть. 18.03.2019
@ALollz Не уверен, что принятый ответ в stackoverflow.com/questions/45240803/ полезно. Сильное злоупотребление O-нотацией и эксперименты со временем не подтверждают его точку зрения, возможно, фрейм данных недостаточно велик. 18.03.2019

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP