Nano Hash - криптовалюты, майнинг, программирование

Добавление поддержки паркета-авро в швартовку

Как я могу создать Scalding Source, который будет обрабатывать преобразования между avro и parquet.

Решение должно:

 1. Read from parquet format and convert to avro memory representation
 2. Write avro objects into a parquet file

Примечание. Я заметил, что в Cascading есть модуль для использования бережливости и паркета. Мне приходит в голову, что это было бы хорошим местом для начала поиска. Я также открыл тему на google-groups/scalding-dev.


Ответы:


1

Попробуйте наши последние изменения в этом форке — https://github.com/epishkin/scalding/tree/parquet_avro/scalding-parquet

15.09.2014
  • Это именно то, что я искал. Функциональность проекции - причина, по которой я искал паркет. Я собираюсь использовать Typed API с этими источниками, чтобы действительно получить красивое приложение. Огромное спасибо! 15.09.2014
  • Мы также работаем над добавлением поддержки предикатов. Я поделюсь этим кодом в ближайшее время. Но там используется паркет-1.6.0rc2 - не выпущенная версия паркета 15.09.2014
  • Это было бы вообще фантастикой :) 16.09.2014
  • Привет, Алексей, когда ты планируешь слить это в master? 05.12.2014
  • @Oleksii Есть ли у вас планы сделать запрос на слияние в проект scalding? 25.05.2015
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..