Nano Hash - криптовалюты, майнинг, программирование

Подгонка данных к нормальному распределению

Я хочу, чтобы некоторые данные соответствовали соответствующему распределению Гаусса.

Данные уже должны быть гауссовскими, но по некоторым причинам фильтрации они не будут полностью соответствовать предписанному и ожидаемому гауссовскому распределению. Поэтому я стремлюсь уменьшить существующий разброс между данными и желаемым распределением.

Например, мои данные соответствуют распределению Гаусса следующим образом (ожидаемое среднее значение равно 0, а стандартное отклонение 0,8):

введите здесь описание изображения

введите здесь описание изображения

Аппроксимация уже приличная, но я очень хочу похрустеть все еще ощутимым разбросом между смоделированными данными и ожидаемым распределением.

Как я могу этого добиться?

ИЗМЕНИТЬ

До сих пор я вводил своего рода коэффициент безопасности, определяемый как:

SF = expected_std/actual_std;

а потом

new_data = SF*old_data;

Таким образом, стандартное отклонение соответствует ожидаемому значению, но, насколько я понимаю, эта процедура выглядит довольно плохо.


  • Как разрешается манипулировать данными? 18.03.2013
  • Данные воплощают определенный спектр мощности, который я хотел бы сохранить. пока спектр мощности остается неизменным, данными можно произвольно манипулировать, чтобы они соответствовали ожидаемому нормальному распределению. 18.03.2013
  • Есть ли у вас доступ к панели инструментов статистики? 18.03.2013
  • Изменение стандартного отклонения ничего не изменит на графике нормальной вероятности. Разброс возникает из-за того, что ваше распределение слишком толстое (и в хвостах всегда есть проблема, что вы никогда не получаете значения бесконечности). 18.03.2013
  • @Jonas: вы правы, я уже знаю о недостатках, связанных с процессом, который я сейчас использую; вот почему я заявил, что это плохой метод. И, опять же, вы правы, когда говорите о форме моего распределения. 18.03.2013
  • проблемы с хвостами нельзя полностью избежать, но я считаю, что данными можно манипулировать таким образом, чтобы они лучше соответствовали ожидаемому нормальному распределению. 18.03.2013
  • @fpe: изменение стандартного отклонения (хотя сначала следует изменить среднее значение) — хороший способ приблизить ваше распределение к реальному. Я хотел сказать, что это не повлияет на график нормального распределения. 18.03.2013
  • @fpe: если вы хотите изменить данные, вам нужно будет изменить фактическое распределение, а это означает, что спектр мощности будет искажен. Это то, что вы хотите? 18.03.2013
  • @Jonas: ну, спектр должен оставаться прежним из-за некоторых обстоятельств, которые я не буду обсуждать сейчас. Среднее значение уже приближается к 0, основная проблема в стандарте (я думаю). 18.03.2013
  • @Jonas: кстати, когда я говорю, что спектр должен оставаться прежним, я имею в виду, что его форма должна оставаться близкой к эталонной. 18.03.2013
  • @Jonas: как я могу использовать нелинейное преобразование? Не могли бы вы пролить свет? 20.03.2013

Ответы:


1

Если вы не хотите делать какие-либо нелинейные преобразования распределений, все, что вы можете сделать, это настроить среднее значение и стандартное отклонение.

%# 1. adjust the mean (do this even if the offset is small)
data = data - mean(data);

%# 2. adjust the standard deviation
data = data/std(data) * expected_SD;
18.03.2013
  • но нельзя ли продолжить процесс минимизации между ожидаемым распределением Гаусса и реальными данными, которые у меня есть? 18.03.2013
  • @fpe: так что вы были бы счастливы применить нелинейные преобразования к своим данным? 18.03.2013
  • Мы можем попробовать, а потом я проверю, не приведет ли это к нежелательному искажению результатов, к которым я стремлюсь. Спасибо за поддержку, кстати :) 18.03.2013
  • @fpe: извините, я сейчас в пути. 20.03.2013
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..