Подгонка данных к нормальному распределению

Я хочу, чтобы некоторые данные соответствовали соответствующему распределению Гаусса.

Данные уже должны быть гауссовскими, но по некоторым причинам фильтрации они не будут полностью соответствовать предписанному и ожидаемому гауссовскому распределению. Поэтому я стремлюсь уменьшить существующий разброс между данными и желаемым распределением.

Например, мои данные соответствуют распределению Гаусса следующим образом (ожидаемое среднее значение равно 0, а стандартное отклонение 0,8):

введите здесь описание изображения

Аппроксимация уже приличная, но я очень хочу похрустеть все еще ощутимым разбросом между смоделированными данными и ожидаемым распределением.

Как я могу этого добиться?

ИЗМЕНИТЬ

До сих пор я вводил своего рода коэффициент безопасности, определяемый как:

SF = expected_std/actual_std;

а потом

new_data = SF*old_data;

Таким образом, стандартное отклонение соответствует ожидаемому значению, но, насколько я понимаю, эта процедура выглядит довольно плохо.

matlab gaussian normal-distribution

18.03.2013

Как разрешается манипулировать данными? 18.03.2013
Данные воплощают определенный спектр мощности, который я хотел бы сохранить. пока спектр мощности остается неизменным, данными можно произвольно манипулировать, чтобы они соответствовали ожидаемому нормальному распределению. 18.03.2013
Есть ли у вас доступ к панели инструментов статистики? 18.03.2013
Изменение стандартного отклонения ничего не изменит на графике нормальной вероятности. Разброс возникает из-за того, что ваше распределение слишком толстое (и в хвостах всегда есть проблема, что вы никогда не получаете значения бесконечности). 18.03.2013
@Jonas: вы правы, я уже знаю о недостатках, связанных с процессом, который я сейчас использую; вот почему я заявил, что это плохой метод. И, опять же, вы правы, когда говорите о форме моего распределения. 18.03.2013
проблемы с хвостами нельзя полностью избежать, но я считаю, что данными можно манипулировать таким образом, чтобы они лучше соответствовали ожидаемому нормальному распределению. 18.03.2013
@fpe: изменение стандартного отклонения (хотя сначала следует изменить среднее значение) — хороший способ приблизить ваше распределение к реальному. Я хотел сказать, что это не повлияет на график нормального распределения. 18.03.2013
@fpe: если вы хотите изменить данные, вам нужно будет изменить фактическое распределение, а это означает, что спектр мощности будет искажен. Это то, что вы хотите? 18.03.2013
@Jonas: ну, спектр должен оставаться прежним из-за некоторых обстоятельств, которые я не буду обсуждать сейчас. Среднее значение уже приближается к 0, основная проблема в стандарте (я думаю). 18.03.2013
@Jonas: кстати, когда я говорю, что спектр должен оставаться прежним, я имею в виду, что его форма должна оставаться близкой к эталонной. 18.03.2013
@Jonas: как я могу использовать нелинейное преобразование? Не могли бы вы пролить свет? 20.03.2013

Ответы:

Если вы не хотите делать какие-либо нелинейные преобразования распределений, все, что вы можете сделать, это настроить среднее значение и стандартное отклонение.

%# 1. adjust the mean (do this even if the offset is small)
data = data - mean(data);

%# 2. adjust the standard deviation
data = data/std(data) * expected_SD;

18.03.2013

но нельзя ли продолжить процесс минимизации между ожидаемым распределением Гаусса и реальными данными, которые у меня есть? 18.03.2013

@fpe: так что вы были бы счастливы применить нелинейные преобразования к своим данным? 18.03.2013

Мы можем попробовать, а потом я проверю, не приведет ли это к нежелательному искажению результатов, к которым я стремлюсь. Спасибо за поддержку, кстати :) 18.03.2013

@fpe: извините, я сейчас в пути. 20.03.2013

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP