Nano Hash - криптовалюты, майнинг, программирование

Переменные в R как, центральный предел

У меня есть следующая задача: предположим, что интересующая нас популяция может быть смоделирована распределением Бернулли с p = 0,5. Для каждого размера выборки n смоделируйте r = 5000 розыгрышей (используя цикл for по (i в 1:r)) из этого распределения Бернулли с p = 0,5 и рассчитайте стандартизированное среднее значение выборки для каждого розыгрыша.

Последняя гистограмма выглядит хорошо с кривой, но 1-я и 2-я неправильные. Может быть, кто-нибудь поможет мне с этим. Спасибо заранее за ваше время!

Я сделал следующее:

set.seed(2005)
x1 <- rbinom(5000,3,0.5)

par(mfrow=c(2,2))


hist(x=x1,
  main=expression(paste(" Random Variables with",size,"=1 and",prob,"=0.5")),  
  sub="Standardized value of smple sample avearge",
  xlab="n=3", ylab="Probability", probability = TRUE)
curve(dnorm(x, mean = mean(x), sd=sd(x)), add = TRUE, col="blue")
07.01.2021

Ответы:


1

По сути, то, что произошло на первых двух панелях, заключается в том, что для небольшого n разрывы гистограммы были рассчитаны некрасивым образом. Вы можете исправить это, позволив разрывам зависеть от диапазона данных. Здесь я выбрал разрывы в зависимости от того, был ли диапазон данных меньше 10. Если это TRUE, рассчитывайте разрывы вручную, в противном случае используйте алгоритм "Sturges" по умолчанию для разрывов.

par(mfrow=c(2,2))

N <- c(2, 5, 25, 100)

for (i in seq_along(N)) {
  set.seed(2015 + i)
  n <- N[i]
  
  xx <- rbinom(10000, n, 0.78)
  if (diff(range(xx)) < 10) {
    breaks <- seq(floor(min(xx)), ceiling(max(xx)))
  } else {
    breaks <- "Sturges"
  }
  
  hist(
    x = xx, breaks = breaks,
    main=expression(paste("Bernoulli Random Variables with",size,"=1 and",prob,"=0.78")), 
    sub = "Standardized value of sample average",
    xlab = paste0("n=",n), ylab = "Probability", probability = TRUE
  )
  curve(dnorm(x, mean = mean(xx), sd=sd(xx)), add = TRUE, col="blue")
}

Создано 07 января 2021 г. с помощью пакета reprex (v0.3.0)

07.01.2021
  • Привет, teunbrand, спасибо за помощь, но в вашем примере образец не стандартизирован. Я забыл упомянуть, что мне нужно дополнительно: написать код на R, который повторяет иллюстрацию центральной предельной теоремы (ЦПТ) для стандартизованного выборочного среднего из n случайных величин Бернулли. это сводит меня с ума 07.01.2021
  • Stackoverflow предназначен для вопросов по программированию. Статистические вопросы лучше подходят для Cross Validated. Статистика вашего вопроса не является моей областью знаний, но вы можете найти следующую информацию полезной: mse.redwoods.edu/darnold/math15/spring2013/R/Activities/ 07.01.2021
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..