Большой фрейм данных имеет столбец date
. Используя pandas.read_csv(..., parse_dates=["date"])
для чтения данных, я предполагаю, что столбец был преобразован в эффективный тип данных для представления дат.
Теперь задача состоит в том, чтобы выбрать все элементы, которые попадают в диапазон дат, например. ("2018-01-01", "2018-12-31")
. Это может быть очень быстро, если иметь столбец date
в отсортированной форме и использовать двоичный поиск для поиска ограничивающих индексов.
Но как мне сказать это пандам? Достаточно ли отсортировать по столбцу и выполнить по нему запрос? Должен ли я сделать это pandas.DateTimeIndex
и использовать .loc
?
Одним из возможных предостережений является то, что у элементов уже есть MultiIndex
, который необходимо сохранить нетронутым. Кроме того, мне не нужно более одной копии фрейма данных в памяти.