Слияние в пандах означает объединение данных из двух таблиц данных для создания новой таблицы.

Давайте загрузим данные для нашей демонстрации. Предположим, у нас есть 2 таблицы, customer и order, и таблицы связаны столбцом customer_id, как показано ниже.

Объединитесь, чтобы найти самого ценного клиента

Из двух таблиц данных мы хотим узнать, кто потратил больше всего. Вы могли видеть это:

  • Джеймса Мэдисона, Джеймса Монро нет в таблице заказов
  • Заказ с id 5, 6 не существует в таблице клиентов

Мы хотим сформировать новую таблицу, данные которой существуют в обеих таблицах. Pandas предоставляет функцию merge() для обработки этой ситуации.

Давайте посмотрим некоторые параметры внутри функции merge

  • left, right относятся к 2 таблицам, которые будут объединены
  • on относится к столбцу, который должен существовать в обеих таблицах.
  • how относятся к способу слияния. В этом случае нам нужны customer_id, которые существуют в обеих таблицах, поэтому мы используем inner

На последнем этапе используйте groupby в customer_id, затем sum в столбце amount, чтобы найти ответ.

Вот и все

Выше мы только что узнали о пандах merge на одном примере. Любые комментарии или обсуждения, пожалуйста, оставьте ниже.