У меня есть премиум-аккаунт Google Analytics, настроенный для отслеживания активности пользователей на веб-сайте и в мобильном приложении.
Необработанные данные из GA хранятся в таблицах BigQuery.
Однако я заметил, что статистика, которую я вижу в отчете GA, сильно отличается от статистики, которую я вижу при запросе таблиц BigQuery.
Насколько я понимаю, в отчетах GA отображаются сводные данные и, возможно, выборочные данные. И что необработанные данные в таблицах Bigquery — это данные на уровне сеанса/обращения.
Но я все еще не уверен, понимаю ли я причину, по которой статистика может отличаться.
Был бы очень признателен, если бы кто-нибудь разъяснил мне это.
Заранее спасибо.
ОБНОВЛЕНИЕ 1:
Я экспортировал необработанные данные из Bigquery в свой кластер Hadoop. Данные хранятся в таблице куста. Перед экспортом я сгладил все вложенные и повторяющиеся поля.
Вот запрос куста, который я выполнил для необработанных данных в таблице Hive:
SELECT
date as VisitDate,
count(distinct fullvisitorid) as CountVisitors,
SUM(totals_visits) as SumVisits,
SUM(totals_pageviews) AS PVs
FROM
bigquerydata
WHERE
fullvisitorid IS NOT NULL
GROUP BY
date
ORDER BY
VisitDate DESC
A) Взяв 9 февраля в качестве даты посещения, я получаю следующие результаты от этого запроса:
i) CountVisitors= 1,074,323
ii) SumVisits= 48,990,198
iii) PVs= 1,122,841,424
Vs
Б) Берем тот же VisitDate и получаем ту же статистику из отчета GA:
i) Users count = 1,549,757
ii) Number of pageviews = 11,604,449 (Huge difference when compared to A(iii))
В приведенном выше запросе hive я использую какие-либо неправильные поля или неправильно обрабатываю поля? Просто пытаюсь понять, почему у меня такая разница в цифрах.
ОБНОВЛЕНИЕ 2 (по предложению @Felipe Hoffa):
Вот как я сглаживаю таблицы в своем коде Python перед экспортом результата в GCS, а затем в кластер Hadoop:
queryString = 'SELECT * FROM flatten(flatten(flatten(flatten(flatten(flatten([' + TABLE_NAME + '],hits),hits.product),hits.promotion),hits.customVariables), hits.customDimensions), hits.customMetrics)'
Я понимаю, что вы говорите о выравнивании, вызывающем повторные просмотры страниц, и каждое повторение приводит к окончательному неправильному добавлению.
Я попробовал тот же запрос (из Update1) для таблицы Bigquery вместо моей таблицы Hive. Цифры совпали с цифрами на панели инструментов Google Analytics.
Однако, если предположить, что таблица Hive - это все, что у меня есть, и в ней есть эти повторяющиеся поля из-за выравнивания. НО Могу ли я исправить свой запрос hive, чтобы он соответствовал статистике из панели инструментов Google Analytics?
Логически говоря, если повторяющиеся поля появились из-за выравнивания... не могу ли я отменить то же самое в своей таблице Hive? Если вы думаете, что я могу развернуться, у вас есть какие-либо предложения относительно того, как я могу действовать дальше?
Огромное спасибо заранее!