Nano Hash - криптовалюты, майнинг, программирование

Дизайн хранилища данных BigQuery?

В типичной среде HDFS для Datawarehouse я видел несколько различных этапов, на которых данные размещаются и преобразуются, как показано ниже. Я пытаюсь разработать систему на облачной платформе Google, в которой я могу выполнять все эти преобразования. Пожалуйста помоги.

HDFS :: Зона приземления -> Зона 1-го уровня -> Зона 2-го уровня

Зона посадки - для наличия необработанных данных Зона 1 стадии - необработанные данные из зоны посадки преобразуются, а затем изменяются на другой формат данных и / или денормализованы и сохраняются в зоне 1 стадии 2 стадии - данные стадии 1 обновляются в таблица транзакций говорит HBASE. Если это просто данные за период времени, тогда все еще будет таблица HIVE на основе HDFS Затем отчет происходит со стадии 2 (также может быть несколько зон между ними, если для преобразования)

Мой мыслительный процесс реализации в Google Cloud:

Посадка (облачное хранилище Google) -> Этап 1 (BigQuery - хранит все данные на основе времени) -> Этап 2 (BigQuery для данных на основе времени / Ведение большой таблицы для данных транзакций на основе ключа)

Мои вопросы ниже:

а) Реалистично ли выглядит эта реализация. Я планирую использовать Dataflow для чтения и загрузки между этими зонами? Что было бы лучше, если бы кто-нибудь реализовал его раньше, чтобы построить склад?

б) Насколько эффективно использовать поток данных для чтения большого запроса и последующего обновления большой таблицы? Я видел коннектор Dataflow для обновлений больших таблиц, здесь

c) Могут ли данные Json использоваться в качестве основного формата, поскольку BigQuery поддерживает это?


Ответы:


1
  1. Есть решение, которое может подойти ваш сценарий. Я загружал данные в облачное хранилище, читал их и выполнял преобразование с помощью Dataflow, а затем либо отправлял их в облачное хранилище для загрузки в Bigquery после этого, либо записывал непосредственно в BigTable с помощью упомянутого вами коннектора Dataflow.
  2. Как я упоминал ранее, вы можете отправлять преобразованные данные в обе базы данных из Dataflow. Помните, что BigQuery и Bigtable хороши для аналитики, однако Bigtable имеет низкую доступ для чтения и записи с задержкой, а BigQuery имеет высокую задержку, поскольку выполняет запросы для сбора данных.
  3. Да, это будет хорошая идея, так как вы можете загрузить свой Данные JSON из облачного хранилища в BigQuery напрямую.
14.08.2018
Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..