Nano Hash - криптовалюты, майнинг, программирование

Создание заголовков столбцов в файлах CSV/TSV с помощью AWS Data Pipeline?

Я создаю файлы CSV и TSV, используя AWS Data Pipeline. Файлы создаются просто отлично, но я не могу понять, как создавать файлы с заголовками столбцов.

Сначала я ожидал, что заголовки будут генерироваться автоматически на основе SQL-запроса, который я выполняю для получения экспорта. Это не сработало, но было нормально.

Затем я добавил список определений столбцов в атрибут «столбец» функции/узла DefaultDataFormat3.

{
  "escapeChar": "\\",
  "name": "DefaultDataFormat3",
  "column": [
    "id INT",
    "field1 STRING",
    "field2 STRING"
  ],
  "columnSeparator": "|",
  "id": "DataFormatId_jEXqL",
  "type": "TSV",
  "recordSeparator": "\\n"
}

Я по-прежнему получаю файлы CSV и TSV без строки заголовка в экспорте.


  • AWS Datapipeline очень плохо документирован. В большинстве случаев трудно понять, что поле должно делать. 14.03.2017
  • Такая же проблема... Вы когда-нибудь нашли решение? 02.06.2017
  • А я нет, @joeB1 :( 04.06.2017

Ответы:


1

Я наткнулся на запись в блоге с объяснением решения этой проблемы. Если вы используете запрос для своих данных, вы можете добавить имена столбцов в качестве первого результата:

SELECT 'firstName', 'lastName', 'email'
UNION ALL
SELECT firstName, lastName, email
FROM users
02.08.2017
  • Это самое отличное решение. Но AWS тоже должен это исправить! :) 03.08.2017
  • Согласовано. Недостатком этого решения является то, что вам нужно преобразовать все в строки, иначе SQL жалуется на несоответствие типов столбцов. 03.08.2017
  • Умно, намного чище, чем добавление еще одного шага обработки. Спасибо. 07.11.2018
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..