Вопросы по теме 'dplyr'
R: скользящее/скользящее среднее по месяцам
Я пытаюсь рассчитать скользящее/скользящее среднее по месяцам. Например, используя экономические данные из пакета ggplot2, я хочу построить сопутствующий временной ряд, представляющий 3-летнее скользящее среднее значение каждого месяца....
09.01.2024
Изучение базы данных MySQL с помощью R и dplyr
Я только что получил экспорт из базы данных MySQL в виде файла mydb.sql. Я установил MySQL на свой ноутбук с Mac OS 10.10, поместил файл .sql в «/usr/local/mysql/data/», запустил сервер MySQL. В R я установил пакеты dplyr, RMySQL и их зависимости....
18.11.2023
если еще | Несоответствие
Моя цель - сравнить элементы в двух векторах.
Вот мой первый Тиббл:
Post_Rev
# A tibble: 12 x 2
Fiscal.Quarter.ID Rev
<S3: yearqtr> <dbl>
1 2014 Q1 3889692022
2 2014 Q2 3763028239
3...
21.11.2023
Упорядочить имена столбцов в порядке возрастания в цепочке dplyr
У меня есть этот data.frame:
df <- structure(list(att_number = structure(1:3, .Label = c("0", "1",
"2"), class = "factor"), `1` = structure(c(2L, 3L, 1L), .Label = c("1026891",...
12.01.2024
найти минимальные и максимальные значения и создать столбцы для них для каждого уникального идентификатора (элемента группировки) в R
У меня есть следующий набор данных:
MC <- c(rep("OS000348",8), rep("OS000361",13), rep("OS000375",5))
ASN <- c(rep(2,8), rep(3,5), rep(2,8), rep(3,5))
Dia <- c(870,"NA", 867.3, "NA", "NA", 890.3,"NA","NA",871.2,"NA",868.7,"NA",866.2,...
24.11.2023
R - найти последовательность элементов строки на основе временных ограничений в кадре данных
Рассмотрим следующий фрейм данных (отсортированный по идентификатору и времени):
df <- data.frame(id = c(rep(1,7),rep(2,5)), event = c("a","b","b","b","a","b","a","a","a","b","a","a"), time = c(1,3,6,12,24,30,32,1,2,6,17,24))
df
id event...
10.01.2024
Обратный порядок сложенных стержней
Я создаю столбчатую диаграмму с накоплением, используя ggplot следующим образом:
plot_df <- df[!is.na(df$levels), ]
ggplot(plot_df, aes(group)) + geom_bar(aes(fill = levels), position = "fill")
Это дает мне что-то вроде этого:...
28.11.2023
сравнить совокупную стоимость по группам
С df ниже,
необходимо вычислить медиану для переменной metric по командам tm1, tm2 и tm3 на основе комбинации locid , day , hour
затем отфильтруйте только те наблюдения locid , day , hour , которые имеют одинаковую медиану metric...
18.12.2023
R: фиктивное кодирование с использованием mutate, ifelse и grepl — ошибка
Я пытаюсь закодировать два уровня из трех в переменной (в два этапа), так как хочу запустить регрессию. Я очень новичок в R и сам не писал код.
Шаг 1: переменная — Birth_order, а два уровня, которые я хотел бы проанализировать, — это Firstborn и...
26.11.2023
Как я могу создать столбец или сводную таблицу, в которой перечислены доступные годы данных, которые имеет значение?
Итак, у меня есть следующие данные, которые выглядят так (это образец с сотнями строк за период ~ 15 лет). Я хотел бы создать столбец (или сводную таблицу), в котором отображаются годы доступных данных для каждого местоположения.
Year, Place...
14.11.2023
Легко проверить, была ли цель записана в другую переменную?
У меня есть идентификатор клиента, product_id1 и product_id2. Данные содержат информацию о покупках клиентов и отсортированы по клиентам и времени, поэтому первая строка каждого клиента является самой старой записью. product_id1 включает в себя...
26.12.2023
Использование purrr и dplyr: лучший способ - rlang :: sym
Я хотел бы написать функции, использующие dplyr-глаголы, а это значит, что мне нужно войти в мутные воды rlang .
Чтобы предоставить конкретный пример, скажем, я хочу использовать purrr::map_df() для перебора переменных в dplyr::group_by() ....
01.01.2024
Замена пропущенных значений на медиану для всех переменных в R
Мне нужно заменить недостающее значение на медиану для всех переменных. Я знаю, как это сделать для каждой переменной отдельно.
df$x1=ifelse(is.na(df$x1),median(df$x1,na.rm=T),df$x1)
Но у меня 21 переменная, и замена должна выполняться для...
26.11.2023
Как вычесть медиану только из целочисленного значения
у меня есть этот набор данных
df=structure(list(Dt = structure(1:39, .Label = c("2018-02-20 00:00:00.000",
"2018-02-21 00:00:00.000", "2018-02-22 00:00:00.000", "2018-02-23 00:00:00.000",
"2018-02-24 00:00:00.000", "2018-02-25 00:00:00.000",...
16.12.2023
Как использовать mutate_at с несколькими функциями, где каждая функция имеет параметры?
Я хочу взять несколько запаздывающих значений нескольких столбцов в R.
Как использовать mutate_at, чтобы получить такие же результаты, как показано ниже? Допустим, в реальном примере 30 столбцов, поэтому нет смысла записывать формулу задержки 30x...
15.12.2023
R-Создать новое поле, применяя условие к полю даты.
Я новичок в R. Я работаю с Windows 10. У меня R Studio и R версии 3.5.0.
У меня есть таблица с одним полем формата dateTime.
2012-02-02 10:04:00
2012-08-13 11:38:00
2012-07-13 14:00:00
2012-09-26 08:45:00
2012-10-24 05:39:00
2012-02-03...
18.12.2023
Есть ли функция, которая для close() аналогична %in% ==?
У меня есть data.frame или tibble с числовым столбцом x :
library(dplyr)
data <- tibble(x = c(0.123456, 0.5678910, 1.234567, 5.67891011, 12.345678),
y = c(1, 2, 3, 4, 5))
Чтобы отфильтровать строки, где x близко (с...
23.12.2023
R, dplyr, Условное изменение значений в нескольких столбцах на основе одного условного столбца в R
Учитывая следующий фрейм данных:
df <- data.frame("a" = 1:5, "b" = 2:6, "c" = 3:7, "d" = c(NA,1,1,0,0))
Как изменить значения в столбцах a , b и c на NA , если значения в столбце d равны NA или 0 ? Я могу легко заставить его...
29.12.2023
изменить после суммирования - dplyr
У меня есть игрушечный фреймворк вроде следующего
Date Type Units
2016-10-11 A 11
2016-10-12 B 14
2016-10-12 C 10
2016-10-13 A 6
2016-10-13 B 4
2016-10-13 D 9
2016-10-14 E 7
2016-10-14 A...
15.11.2023
объединение с фильтрацией по нескольким критериям с использованием dplyr
Я пытаюсь выполнить описанную ниже операцию, создав файл df с именем event_f .
Я хочу из detail df в качестве критериев фильтрации все event_id , у которых есть type_id == 6 , за исключением тех, у которых есть комбинация 6 и 3 или 6 и 7....
12.11.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..