Вопросы по теме 'parquet'
Добавление поддержки паркета-авро в швартовку
Как я могу создать Scalding Source , который будет обрабатывать преобразования между avro и parquet .
Решение должно:
1. Read from parquet format and convert to avro memory representation
2. Write avro objects into a parquet file...
16.11.2023
Кадр данных перераспределения Spark вызывает увеличение размера данных в 10 раз
На S3 хранятся 40-гигабайтные файлы tsv в формате gzip.
Я загружаю его с помощью
df = spark.read.csv()
и сохраните df в HDFS с помощью
df.write.parquet()
Результирующий размер после этого составляет 20 ГБ.
Но если я вызову...
25.11.2023
Как проверить столбцы при добавлении раздела улья?
У меня есть таблица кустов, созданная следующим образом:
CREATE EXTERNAL TABLE test_db.test(
region STRING,
start_date STRING
)
PARTITIONED BY (
id STRING
)
STORED AS PARQUET.
У меня есть скрипт для добавления файлов паркета...
15.11.2023
Impala не может прочитать метку времени Dateless из файла Parquet
Impala v2.11.0+ (CDH v5.11.1+) не может считывать временные метки только со значением времени из файла Parquet.
create table TT2(t timestamp) STORED AS PARQUET;
insert into TT2 (t) values ("10:00:00");
select * from TT2;
+------+
| t |...
11.01.2024
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..