Nano Hash - криптовалюты, майнинг, программирование

Bigquery и Google Cloud Storage

Я пытаюсь использовать bigquery для запроса данных из облачного хранилища Google.

введите здесь описание изображения

Это данные для моей БД в реальном времени в firebase. Он состоит из файла json. Как я могу запросить и увидеть данные внутри каждого файла?

Я действительно читаю это, но не понимаю, как подключиться.

https://cloud.google.com/bigquery/external-data-cloud-storage

Обновлять

введите здесь описание изображения

введите здесь описание изображения

Если я укажу на конкретный файл (например, firebase.json), все в порядке. Но мне нужно обновить мои данные.

введите здесь описание изображения


  • Что непонятно? Что ты пробовал? 29.10.2018
  • Я не вижу документа / руководства, как подключиться к базе данных firebase в реальном времени из bigquery (также для запроса файлов из облачного хранилища Google, которые автоматически создают резервную копию базы данных firebase в реальном времени). 29.10.2018
  • Вы можете определить временную или постоянную внешнюю таблицу над файлом JSON, хранящимся в GCS, как описано в документации, которую вы связали. 29.10.2018
  • Как я могу получить JSON из файла .GZ? Это потому, что firebase автоматически выполняет резервное копирование в этом формате. Если возможно, мне нужно напрямую использовать данные из базы данных firebase в реальном времени. 29.10.2018

Ответы:


1

Использование пользовательского интерфейса до 29.10.2018

Если вы хотите сделать это из пользовательского интерфейса. Зайдите в bigquery, щелкните левой кнопкой мыши по вашему

project -> dataset -> at the right click on cleater Table

Заполните остальную информацию

  • Создать таблицу из: Google Cloud Storage
  • Выберите из корзины GCS: путь к расположению вашей базы данных на GCS
  • Формат файла: JSON
  • В разделе схемы щелкните автоматическое определение схемы.

Это должно работать с использованием нового пользовательского интерфейса к 2018-10-29.

Использование интерфейса командной строки

Вы также можете сделать это из консоли Google, используя CLI bigquery, например

bq mk --external_table_definition=gs://yourbucket/path/yourdb --destination_format NEWLINE_DELIMITED_JSON --autodetect yourdataset.yourtablename

Последние аргументы - это имя вашего набора данных, расставленное по имени вашей таблицы.

Вам не нужно указывать файл, вы можете указать папку. О сжатии из документации BigQuery

Если вы используете сжатие gzip, BigQuery не сможет читать данные параллельно. Загрузка сжатых данных JSON в BigQuery происходит медленнее, чем загрузка несжатых данных.

Таким образом, он поддерживается, но не рекомендуется с точки зрения производительности из-за ограничений формата gz. В любом случае, если должно быть несколько небольших файлов, это не имеет значения, я думаю, что это больше связано с большими файлами gziped.

РЕДАКТИРОВАТЬ: если вам нужно указать несколько файлов, вы можете использовать подстановочный знак, например --external_table_definition=gs://yourbucket/path/yourdb/*

29.10.2018
  • Думаю, ваше решение сработает. Но могу ли я узнать, как обращаться с файлом .gz? Это связано с тем, что резервная копия базы данных firebase в реальном времени в этом формате и именование также каждый раз будут разными. 29.10.2018
  • вам не нужно указывать на конкретный файл, я обновил, связанный с gz 29.10.2018
  • Спасибо. Я дам вам знать здесь снова, как только он будет успешно подключен. 30.10.2018
  • Я обновил вопрос, чтобы добавить изображение ошибки. Я сделал, как в вашем предложении. Но он говорит, что исходный URI должен быть ... Я думаю, что это уже правильное местоположение. Может быть ошибка разрешения? Как я могу дать разрешение на получение доступа из bigquery? 30.10.2018
  • вы используете новый или старый интерфейс? у меня почему-то другое мнение. ты пробовал из командной строки? В моем случае URI выглядит как mybucket / myjson / part- * без gs спереди. это могут быть права на ошибку, убедитесь, что у корзины есть доступ на чтение для любого пользователя (по крайней мере, для тестирования). Вы должны иметь возможность использовать пользовательский интерфейс для изучения местоположения папки, не нужно вводить его вручную. 30.10.2018
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..