Вопросы по теме 'rdd'
Сохраните искровой RDD в локальной файловой системе с помощью Java.
У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS.
Я хочу записать файл в свою локальную файловую систему,...
06.12.2023
zip RDD, созданные из разных входных файлов
У меня есть два файла в HDFS с одинаковым количеством строк. Строки из файлов соответствуют друг другу по номеру строки.
lines1=sc.textFile('1.txt')
lines2=sc.textFile('2.txt')
Мой вопрос: как правильно заархивировать rdd lines1 с lines2?...
20.11.2023
Нужно меньше паркетных напильников
Я делаю следующий процесс
rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path)
Однако в каждом разделе слишком много файлов паркета, и каждый из них имеет очень маленький размер, из-за чего мои следующие шаги...
27.10.2023
Как я могу объяснить график происхождения Apache Spark RDD?
У меня есть несколько вопросов с этим кодом ниже:
val input1 = rawinput.map(_.split("\t")).map(x=>(x(6).trim(),x)).sortByKey()
val input2 = input1.map(x=> x._2.mkString("\t"))
val x0 = input2.map(_.split("\t")).map(x => (x(6),x(0))
val x1...
29.11.2023
Почему все данные попадают в один раздел после reduceByKey?
У меня есть эта простая искровая программа. Мне интересно, почему все данные попадают в один раздел.
val l = List((30002,30000), (50006,50000), (80006,80000),
(4,0), (60012,60000), (70006,70000),
(40006,40000),...
08.12.2023
Измените разделитель в параметре saveAsTextFile в Pyspark rdd
У меня есть набор данных, доступный в HDFS. Я читаю его и выполняю операцию фильтрации.
dir = sc.textFile('/datasets/DelayedFlights.csv').filter(lambda x:
int(x.split(',')[24]) == 1).map(lambda y: y.split(','))
The output of above operation is...
02.01.2024
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..