Nano Hash - криптовалюты, майнинг, программирование

Экспорт из BigQuery с использованием табличных данных: список работает медленно

Я написал простое Java-приложение для экспорта таблиц из Google BigQuery с использованием метода tabledata: list (https://cloud.google.com/bigquery/docs/reference/v2/tabledata/list) и использование pageToken для пейджинга. Независимо от того, что я установил для параметра maxResults, я могу получить только около 5000 строк за запрос (в зависимости от размера строки). Поскольку запросы занимают несколько секунд, таким образом я могу скачать в среднем только 100 МБ в минуту.

Способы, которые я нашел, чтобы ускорить это до сих пор:

Пакетная обработка (в моем случае не подходит)

  • пакетный экспорт в Google Cloud Storage

Распараллеливание запросов

  • используя начальный индекс
  • использование динамических разделов таблицы

Кажется, наиболее эффективным способом для моего варианта использования является последний вариант в сочетании с декоратором снимков, чтобы получить стабильный результат в случае изменения таблиц:

myproject:mydataset.mytable@timestamp$0-of-3
myproject:mydataset.mytable@timestamp$1-of-3
myproject:mydataset.mytable@timestamp$2-of-3

Итак, мои вопросы:

  1. Есть ли лучший (= более быстрый) подход
  2. Учитывайте количество запросов списка табличных данных в соответствии с ограничением в 50 одновременных запросов.
27.05.2016

Ответы:


1

Сначала вы можете экспортировать таблицу BigQuery в Google Cloud Storage, используя configuration.extract. свойство Задания: вставить

Затем вы можете загрузить файл в интересующее вас место.

27.05.2016
  • Привет, Михаил, вы имеете в виду, что экспорт в облачное хранилище выполняется быстрее, чем параллельное перечисление разделов табличных данных? 30.05.2016
  • проверить – Экспорт данных в один или несколько файлов – cloud.google.com /bigquery/ 30.05.2016
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..