Bigquery и Google Cloud Storage

Я пытаюсь использовать bigquery для запроса данных из облачного хранилища Google.

Это данные для моей БД в реальном времени в firebase. Он состоит из файла json. Как я могу запросить и увидеть данные внутри каждого файла?

Я действительно читаю это, но не понимаю, как подключиться.

https://cloud.google.com/bigquery/external-data-cloud-storage

Обновлять

Если я укажу на конкретный файл (например, firebase.json), все в порядке. Но мне нужно обновить мои данные.

google-cloud-storage google-bigquery

29.10.2018

Что непонятно? Что ты пробовал? 29.10.2018
Я не вижу документа / руководства, как подключиться к базе данных firebase в реальном времени из bigquery (также для запроса файлов из облачного хранилища Google, которые автоматически создают резервную копию базы данных firebase в реальном времени). 29.10.2018
Вы можете определить временную или постоянную внешнюю таблицу над файлом JSON, хранящимся в GCS, как описано в документации, которую вы связали. 29.10.2018
Как я могу получить JSON из файла .GZ? Это потому, что firebase автоматически выполняет резервное копирование в этом формате. Если возможно, мне нужно напрямую использовать данные из базы данных firebase в реальном времени. 29.10.2018

Ответы:

Использование пользовательского интерфейса до 29.10.2018

Если вы хотите сделать это из пользовательского интерфейса. Зайдите в bigquery, щелкните левой кнопкой мыши по вашему

project -> dataset -> at the right click on cleater Table

Заполните остальную информацию

Создать таблицу из: Google Cloud Storage
Выберите из корзины GCS: путь к расположению вашей базы данных на GCS
Формат файла: JSON
В разделе схемы щелкните автоматическое определение схемы.

Это должно работать с использованием нового пользовательского интерфейса к 2018-10-29.

Использование интерфейса командной строки

Вы также можете сделать это из консоли Google, используя CLI bigquery, например

bq mk --external_table_definition=gs://yourbucket/path/yourdb --destination_format NEWLINE_DELIMITED_JSON --autodetect yourdataset.yourtablename

Последние аргументы - это имя вашего набора данных, расставленное по имени вашей таблицы.

Вам не нужно указывать файл, вы можете указать папку. О сжатии из документации BigQuery

Если вы используете сжатие gzip, BigQuery не сможет читать данные параллельно. Загрузка сжатых данных JSON в BigQuery происходит медленнее, чем загрузка несжатых данных.

Таким образом, он поддерживается, но не рекомендуется с точки зрения производительности из-за ограничений формата gz. В любом случае, если должно быть несколько небольших файлов, это не имеет значения, я думаю, что это больше связано с большими файлами gziped.

РЕДАКТИРОВАТЬ: если вам нужно указать несколько файлов, вы можете использовать подстановочный знак, например --external_table_definition=gs://yourbucket/path/yourdb/*

29.10.2018

Думаю, ваше решение сработает. Но могу ли я узнать, как обращаться с файлом .gz? Это связано с тем, что резервная копия базы данных firebase в реальном времени в этом формате и именование также каждый раз будут разными. 29.10.2018

вам не нужно указывать на конкретный файл, я обновил, связанный с gz 29.10.2018

Спасибо. Я дам вам знать здесь снова, как только он будет успешно подключен. 30.10.2018

Я обновил вопрос, чтобы добавить изображение ошибки. Я сделал, как в вашем предложении. Но он говорит, что исходный URI должен быть ... Я думаю, что это уже правильное местоположение. Может быть ошибка разрешения? Как я могу дать разрешение на получение доступа из bigquery? 30.10.2018

вы используете новый или старый интерфейс? у меня почему-то другое мнение. ты пробовал из командной строки? В моем случае URI выглядит как mybucket / myjson / part- * без gs спереди. это могут быть права на ошибку, убедитесь, что у корзины есть доступ на чтение для любого пользователя (по крайней мере, для тестирования). Вы должны иметь возможность использовать пользовательский интерфейс для изучения местоположения папки, не нужно вводить его вручную. 30.10.2018

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP