Я снял некоторые столбцы из CSV, используя скрипт свиньи:
Cleaned = FOREACH data generate $0 .. $8,$11 .. $27, $31 .. $41, $45 .. $97, $99 .. $111;
В столбцах, которые я сохранил, мне нужно удалить любой новый символ строки, который может повредить мои данные в улье. Будь то \n
или \r
или \r\n
или <br>
. Поскольку это данные, введенные пользователем, я считаю, что разрывы строк, созданные при вводе данных с помощью клавиши ввода, будут одним из символов, упомянутых выше, был бы признателен, если бы вы также могли указать, во что они преобразуются, но по большей части мне нужно сделать убедиться, что из данных удален любой вид разрыва строки, чтобы убедиться, что мои данные правильно отображаются парсером hive CSV. Как мне сделать это в скрипте свиньи, который я использую для фильтрации столбцов?
Изменить: 1. Я хочу продолжать использовать диапазон столбцов вместо указания каждого столбца. 2. В указанном примере не учитываются все типы символов новой строки.