Вопросы по теме 'hdfs'
Bufferreader и Bufferwriter для чтения и записи файлов hdfs
Я пытаюсь читать из файла hdfs построчно, а затем создавать файл hdfs и писать в него построчно. Код, который я использую, выглядит так:
Path FileToRead=new Path(inputPath);
FileSystem hdfs = FileToRead.getFileSystem(new...
14.11.2023
Flume NG FileChannel работает очень медленно
Я экспериментировал с flume ng (flume-ng-1.2.0+24.81-1~lucid) и сравнивал производительность канала памяти и файлового канала.
Каждое событие в моей тестовой системе имеет размер 1 КБ, и с моей текущей конфигурацией я могу обрабатывать около 30 000...
03.11.2023
У меня есть исключение при удаленном доступе к HDFS, помогите, пожалуйста~~
Недавно я начал использовать хауп. Теперь я хочу получить доступ к hdfs с удаленного хоста, который не устанавливает hadoop-client, а только с зависимостью от hadoop-client-2.0.4-alpha.jar.
Но когда я попытался получить доступ к hdfs, я получил...
25.11.2023
Экспорт данных из Mongo/Cassandra в HDFS с использованием Apache Sqoop
У меня проблема, когда мне приходится читать данные из нескольких источников данных, т.е. RDBMS (MYSQL, Oracle) и NOSQL (MongoDb, Cassandra) в HDFS через Hive (пошагово).
Apache Sqoop отлично работает с RDBMS, но не работает с NOSQL, по крайней...
05.01.2024
Чтение файла свойств из HDFS
Я пытаюсь прочитать файл свойств Java, который находится в HDFS, например:
try {
properties.load(new FileInputStream("hdfs://user/hdfs/my_props.properties"));
} catch (IOException e) {
throw new RuntimeException("Properties file not...
25.12.2023
Сохраните искровой RDD в локальной файловой системе с помощью Java.
У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS.
Я хочу записать файл в свою локальную файловую систему,...
06.12.2023
Apache Flume с исходным кодом плоских файлов
У меня есть исходный каталог со многими поступающими файлами журналов, и я хочу использовать Apache Flume для использования этих файлов журналов и передачи данных в HDFS. Мне просто интересно, как Flume узнает уже обработанные файлы журналов? есть...
22.01.2024
Как развернуть и запустить задание Samza на HDFS?
Я хочу, чтобы задание Samza выполнялось в удаленной системе, а задание Samza хранилось в HDFS. Пример ( https://samza.apache.org/startup/hello-samza/0.7.0/ ) для выполнения задания Samza на угольной машине включает создание tar-файла, затем...
03.12.2023
Скрипт Pig, генерирующий тысячи карт
По какой-то причине этот скрипт порождает 60 000 картографических заданий на небольшом входе:
A1 = LOAD '$directory1' USING CustomLoader AS key:chararray;
A = FOREACH A1 GENERATE CustomParser(key) AS key:chararray;
B = LOAD '$filename1' USING...
03.11.2023
Как изменить Hadoop HDFS для локального хранения файлов
Я нашел вопрос Где HDFS хранит файлы локально по умолчанию? .
Мои HDFS хранят данные в папке /tmp/, которая удаляется системой.
Я хочу изменить где HDFS локально хранит файлы .
Я ищу в hdfs-default.xml, но не могу найти dfs.data.dir...
14.11.2023
Конфлюентный коннектор HDFS: как я могу прочитать последнее смещение, если нет файлов hdfs?
У нас есть приложение производителя, которое работает уже несколько дней и создает данные для темы A. Мы хотим, чтобы коннектор hdfs читал из темы A, но НЕ со смещения 0 (поскольку это приведет к огромному отставанию). Мы хотим начать с последнего...
30.12.2023
Создайте каталог на удаленных hdfs с локального хоста, используя java
Создайте каталог на удаленной HDFS с локального хоста
Написал код, но не понимаю, что и где писать core-site.xml и hdfs-site.xml .
public class HadoopCall {
public void demomkdir(String dir) throws IOException
{...
05.11.2023
Задание Hadoop продолжает выполняться, и контейнер не выделяется
Я попытался запустить задание mapreduce в Hadoop 2.8.5, но оно продолжает работать. Состояние приложения показано ниже: YarnApplicationState: ACCEPTED: waiting for AM container to be allocated, launched and register with RM.
Веб-интерфейс RM:...
29.12.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..