Контрольный список анализа данных
Этот контрольный список можно использовать в качестве руководства в процессе анализа данных, как критерий оценки проектов анализа данных или как способ оценки качества анализа отчетных данных.
1. Ответ на вопрос
- Вы указали тип вопроса анализа данных (например, исследование, причинно-следственная связь), прежде чем касаться данных?
- Вы определили показатель успеха перед тем, как начать?
- Поняли ли вы контекст вопроса и научного или бизнес-приложения?
- Вы записывали экспериментальный план?
- Вы думали, можно ли ответить на этот вопрос с помощью имеющихся данных?
2. Проверка данных
- Вы построили одномерные и многомерные сводки данных?
- Вы проверяли выбросы?
- Вы определили недостающий код данных?
3. Уборка данных
- Каждая переменная - один столбец?
- Каждое наблюдение - одна строка?
- Отображаются ли в каждой таблице разные типы данных?
- Вы записали рецепт перехода от сырых данных к аккуратным?
- Вы создали кодовую книгу?
- Вы записали все параметры, единицы и функции, применяемые к данным?
4. Исследовательский анализ
- Вы определили недостающие значения?
- Вы сделали одномерные графики (гистограммы, графики плотности, коробчатые графики)?
- Вы учли корреляции между переменными (диаграммы рассеяния)?
- Вы проверили единицы всех точек данных, чтобы убедиться, что они находятся в правильном диапазоне?
- Вы пытались выявить какие-либо ошибки или неправильное кодирование переменных?
- Вы рассматривали возможность построения графика в логарифмическом масштабе?
- Будет ли диаграмма рассеяния более информативной?
5. Заключение
- Вы определили, какую большую популяцию вы пытаетесь описать?
- Вы четко определили интересующие вас количества в вашей модели?
- Вы учитывали потенциальные факторы, вызывающие затруднения?
- Вы идентифицировали и смоделировали потенциальные источники корреляции, такие как измерения во времени или пространстве?
- Вы рассчитывали меру неопределенности для каждой оценки по научной шкале?
6. Прогноз
- Вы заранее определили свою меру погрешности?
- Вы сразу разделили данные на обучение и проверку?
- Вы использовали перекрестную проверку, повторную выборку или самозагрузку только для данных обучения?
- Вы создавали функции, используя только обучающие данные?
- Вы оценивали параметры только на тренировочных данных?
- Вы исправили все функции, параметры и модели перед применением к данным проверки?
- Вы применили только одну окончательную модель к данным проверки и сообщили о частоте ошибок?
7. Причинно-следственная связь
- Вы определили, было ли ваше исследование рандомизированным?
- Определили ли вы потенциальные причины, по которым причинно-следственная связь может быть неприемлемой, например, вмешивающиеся в нее факторы, недостающие данные, неотвратимое исключение или неслепые эксперименты?
- Если нет, избегали ли вы языка, подразумевающего причину и следствие?
8. Письменные анализы
- Вы описали интересующий вопрос?
- Вы описали набор данных, схему эксперимента и вопрос, на который отвечаете?
- Вы указали тип вопроса анализа данных, на который отвечаете?
- Вы четко указали подходящую модель?
- Объяснили ли вы по интересующей шкале, что означает каждая оценка и мера неопределенности?
- Вы указали меру неопределенности для каждой оценки по научной шкале?
9. Рисунки
- Сообщает ли каждая фигура важную информацию или затрагивает интересующий вопрос?
- Все ли ваши рисунки включают метки осей на понятном языке?
- Достаточно ли большой размер шрифта для чтения?
- Есть ли у каждого рисунка подробный заголовок, объясняющий все оси, легенды и тенденции на рисунке?
10. Презентации
- Вы привели краткую, понятную каждому формулировку своей проблемы?
- Объясняли ли вы данные, технологию измерения и схему эксперимента, прежде чем объяснять свою модель?
- Объяснили ли вы функции, которые вы будете использовать для моделирования данных, прежде чем объяснять модель?
- Вы удостоверились, что все легенды и топоры читаются из глубины комнаты?
11. Воспроизводимость
- Вы избегали расчетов вручную?
- Вы создали сценарий, который воспроизводит все ваши анализы?
- Вы сохранили необработанные и обработанные версии ваших данных?
- Вы записали все версии программного обеспечения, которое вы использовали для обработки данных?
- Вы пытались, чтобы кто-то другой запустил ваш код анализа, чтобы убедиться, что он получил такие же ответы?
12. Пакеты кода
- Вы сделали название своего пакета "Googleable"?
- Вы писали модульные тесты для своих функций?
- Вы писали файлы справки для всех функций?
- Вы написали виньетку?
- Вы пытались уменьшить зависимости до активно поддерживаемых пакетов?
- Вы устранили все ошибки и предупреждения?