Слияние в пандах означает объединение данных из двух таблиц данных для создания новой таблицы.
Давайте загрузим данные для нашей демонстрации. Предположим, у нас есть 2 таблицы, customer
и order
, и таблицы связаны столбцом customer_id
, как показано ниже.
Объединитесь, чтобы найти самого ценного клиента
Из двух таблиц данных мы хотим узнать, кто потратил больше всего. Вы могли видеть это:
- Джеймса Мэдисона, Джеймса Монро нет в таблице заказов
- Заказ с
id
5, 6 не существует в таблице клиентов
Мы хотим сформировать новую таблицу, данные которой существуют в обеих таблицах. Pandas предоставляет функцию merge()
для обработки этой ситуации.
Давайте посмотрим некоторые параметры внутри функции merge
left
,right
относятся к 2 таблицам, которые будут объединеныon
относится к столбцу, который должен существовать в обеих таблицах.how
относятся к способу слияния. В этом случае нам нужныcustomer_id
, которые существуют в обеих таблицах, поэтому мы используемinner
На последнем этапе используйте groupby
в customer_id
, затем sum
в столбце amount
, чтобы найти ответ.
Вот и все
Выше мы только что узнали о пандах merge
на одном примере. Любые комментарии или обсуждения, пожалуйста, оставьте ниже.