В типичной среде HDFS для Datawarehouse я видел несколько различных этапов, на которых данные размещаются и преобразуются, как показано ниже. Я пытаюсь разработать систему на облачной платформе Google, в которой я могу выполнять все эти преобразования. Пожалуйста помоги.
HDFS :: Зона приземления -> Зона 1-го уровня -> Зона 2-го уровня
Зона посадки - для наличия необработанных данных Зона 1 стадии - необработанные данные из зоны посадки преобразуются, а затем изменяются на другой формат данных и / или денормализованы и сохраняются в зоне 1 стадии 2 стадии - данные стадии 1 обновляются в таблица транзакций говорит HBASE. Если это просто данные за период времени, тогда все еще будет таблица HIVE на основе HDFS Затем отчет происходит со стадии 2 (также может быть несколько зон между ними, если для преобразования)
Мой мыслительный процесс реализации в Google Cloud:
Посадка (облачное хранилище Google) -> Этап 1 (BigQuery - хранит все данные на основе времени) -> Этап 2 (BigQuery для данных на основе времени / Ведение большой таблицы для данных транзакций на основе ключа)
Мои вопросы ниже:
а) Реалистично ли выглядит эта реализация. Я планирую использовать Dataflow для чтения и загрузки между этими зонами? Что было бы лучше, если бы кто-нибудь реализовал его раньше, чтобы построить склад?
б) Насколько эффективно использовать поток данных для чтения большого запроса и последующего обновления большой таблицы? Я видел коннектор Dataflow для обновлений больших таблиц, здесь
c) Могут ли данные Json использоваться в качестве основного формата, поскольку BigQuery поддерживает это?