Контрольный список анализа данных

Этот контрольный список можно использовать в качестве руководства в процессе анализа данных, как критерий оценки проектов анализа данных или как способ оценки качества анализа отчетных данных.

1. Ответ на вопрос

  1. Вы указали тип вопроса анализа данных (например, исследование, причинно-следственная связь), прежде чем касаться данных?
  2. Вы определили показатель успеха перед тем, как начать?
  3. Поняли ли вы контекст вопроса и научного или бизнес-приложения?
  4. Вы записывали экспериментальный план?
  5. Вы думали, можно ли ответить на этот вопрос с помощью имеющихся данных?

2. Проверка данных

  1. Вы построили одномерные и многомерные сводки данных?
  2. Вы проверяли выбросы?
  3. Вы определили недостающий код данных?

3. Уборка данных

  1. Каждая переменная - один столбец?
  2. Каждое наблюдение - одна строка?
  3. Отображаются ли в каждой таблице разные типы данных?
  4. Вы записали рецепт перехода от сырых данных к аккуратным?
  5. Вы создали кодовую книгу?
  6. Вы записали все параметры, единицы и функции, применяемые к данным?

4. Исследовательский анализ

  1. Вы определили недостающие значения?
  2. Вы сделали одномерные графики (гистограммы, графики плотности, коробчатые графики)?
  3. Вы учли корреляции между переменными (диаграммы рассеяния)?
  4. Вы проверили единицы всех точек данных, чтобы убедиться, что они находятся в правильном диапазоне?
  5. Вы пытались выявить какие-либо ошибки или неправильное кодирование переменных?
  6. Вы рассматривали возможность построения графика в логарифмическом масштабе?
  7. Будет ли диаграмма рассеяния более информативной?

5. Заключение

  1. Вы определили, какую большую популяцию вы пытаетесь описать?
  2. Вы четко определили интересующие вас количества в вашей модели?
  3. Вы учитывали потенциальные факторы, вызывающие затруднения?
  4. Вы идентифицировали и смоделировали потенциальные источники корреляции, такие как измерения во времени или пространстве?
  5. Вы рассчитывали меру неопределенности для каждой оценки по научной шкале?

6. Прогноз

  1. Вы заранее определили свою меру погрешности?
  2. Вы сразу разделили данные на обучение и проверку?
  3. Вы использовали перекрестную проверку, повторную выборку или самозагрузку только для данных обучения?
  4. Вы создавали функции, используя только обучающие данные?
  5. Вы оценивали параметры только на тренировочных данных?
  6. Вы исправили все функции, параметры и модели перед применением к данным проверки?
  7. Вы применили только одну окончательную модель к данным проверки и сообщили о частоте ошибок?

7. Причинно-следственная связь

  1. Вы определили, было ли ваше исследование рандомизированным?
  2. Определили ли вы потенциальные причины, по которым причинно-следственная связь может быть неприемлемой, например, вмешивающиеся в нее факторы, недостающие данные, неотвратимое исключение или неслепые эксперименты?
  3. Если нет, избегали ли вы языка, подразумевающего причину и следствие?

8. Письменные анализы

  1. Вы описали интересующий вопрос?
  2. Вы описали набор данных, схему эксперимента и вопрос, на который отвечаете?
  3. Вы указали тип вопроса анализа данных, на который отвечаете?
  4. Вы четко указали подходящую модель?
  5. Объяснили ли вы по интересующей шкале, что означает каждая оценка и мера неопределенности?
  6. Вы указали меру неопределенности для каждой оценки по научной шкале?

9. Рисунки

  1. Сообщает ли каждая фигура важную информацию или затрагивает интересующий вопрос?
  2. Все ли ваши рисунки включают метки осей на понятном языке?
  3. Достаточно ли большой размер шрифта для чтения?
  4. Есть ли у каждого рисунка подробный заголовок, объясняющий все оси, легенды и тенденции на рисунке?

10. Презентации

  1. Вы привели краткую, понятную каждому формулировку своей проблемы?
  2. Объясняли ли вы данные, технологию измерения и схему эксперимента, прежде чем объяснять свою модель?
  3. Объяснили ли вы функции, которые вы будете использовать для моделирования данных, прежде чем объяснять модель?
  4. Вы удостоверились, что все легенды и топоры читаются из глубины комнаты?

11. Воспроизводимость

  1. Вы избегали расчетов вручную?
  2. Вы создали сценарий, который воспроизводит все ваши анализы?
  3. Вы сохранили необработанные и обработанные версии ваших данных?
  4. Вы записали все версии программного обеспечения, которое вы использовали для обработки данных?
  5. Вы пытались, чтобы кто-то другой запустил ваш код анализа, чтобы убедиться, что он получил такие же ответы?

12. Пакеты кода

  1. Вы сделали название своего пакета "Googleable"?
  2. Вы писали модульные тесты для своих функций?
  3. Вы писали файлы справки для всех функций?
  4. Вы написали виньетку?
  5. Вы пытались уменьшить зависимости до активно поддерживаемых пакетов?
  6. Вы устранили все ошибки и предупреждения?