Публикации по теме 'apache-spark'
Spark Pipelines: элегантный, но мощный
Эрик Сюй - специалист по данным, разработчик Rails в Outbrain. Он участвовал в семинаре Insight Spark Lab в Нью-Йорке.
Мы все страдали от повторного открытия проекта машинного обучения и попыток отследить наш мыслительный процесс. Часто это похоже на джунгли, где десятки этапов разработки функций пересекаются с сумкой отрегулированных вручную моделей. Если мы не можем легко следовать нашему собственному коду, как могут другие?
Вот почему я был взволнован, когда во время Insight..
Вопросы по теме 'apache-spark'
Redis в Spark: задача не сериализуема
Мы используем Redis в Spark для кэширования наших пар ключ-значение. Это код:
import com.redis.RedisClient
val r = new RedisClient("192.168.1.101", 6379)
val perhit = perhitFile.map(x => {
val arr = x.split(" ")
val readId =...
12.12.2023
Несовместимость между модулями (искра и причал) с использованием maven
Я создаю программу, которая использует библиотеки spark и jetty. Зависимости управляются maven.
Проблема в том, что некоторые классы не найдены, если определены зависимости бота. В частности org.eclipse.jetty.server.ServerConnector . С другими...
03.12.2023
pySpark Создать DataFrame из RDD с ключом / значением
Если у меня есть RDD ключа / значения (ключ является индексом столбца), можно ли загрузить его в фрейм данных? Например:
(0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18)
И пусть фрейм данных выглядит так:
1,2,18...
04.12.2023
Можем ли мы начать новый поток в foreachRDD в потоковой передаче искры?
Я хочу запустить дочерний поток в foreachRDD.
Моя ситуация:
задание постоянно читает из каталога hdfs, и каждые 100 пакетов я хочу запустить задачу обучения модели (в это время я сделаю снимок rdds и запущу задачу обучения. задача обучения...
29.12.2023
Сохраните искровой RDD в локальной файловой системе с помощью Java.
У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS.
Я хочу записать файл в свою локальную файловую систему,...
06.12.2023
Не удается установить Ganglia на EMR 4.0.0
Я следую этому руководству, чтобы установить Spark на последний кластер AMI/EMR:
http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-spark-launch.html
Я хотел бы установить Ganglia для мониторинга кластера, поэтому я добавил...
06.12.2023
Как разделить файл последовательности в Spark
Я новичок в Spark и пытаюсь прочитать файл последовательности и использовать его в задаче классификации. Вот как я читаю файл последовательности
val tfidf = sc.sequenceFile("/user/hadoop/strainingtesting/tfidf-vectors", classOf[Text],...
13.12.2023
Могу ли я добавить аргументы в код Python при отправке задания на искру?
Я пытаюсь использовать spark-submit для выполнения моего кода Python в искровом кластере.
Обычно мы запускаем spark-submit с кодом Python, как показано ниже.
# Run a Python application on a cluster
./bin/spark-submit \
--master...
10.01.2024
Почему Spark не перераспределяет задачи между исполнителями?
Я запускаю искровую работу, которая завершена на 99%. Последний 1% занимает много времени, поэтому я проверил трекер вакансий. Как показано на скриншоте, мы видим, что у некоторых исполнителей все еще есть несколько активных задач, а у некоторых нет...
12.01.2024
Объединение наборов данных неравного размера в Spark
У меня есть следующие наборы данных:
Dataset 1: Dataset 2: Dataset 3:
id field1 l_id r_id id field2
Вот их размеры: Dataset1: 20G Dataset2: 5T Dataset3: 20G
Цель : я...
05.01.2024
Как создать коллекцию RDD из RDD?
У меня RDD[String] , wordRDD . У меня также есть функция, которая создает RDD[String] из строки/слова. Я хотел бы создать новый RDD для каждой строки в wordRDD . Вот мои попытки:
1) Ошибка, поскольку Spark не поддерживает вложенные RDD:...
18.11.2023
Не удалось подключиться к красному смещению от искры
Я пытаюсь прочитать данные из красного смещения в искру 1.5, используя scala 2.10.
Я собрал пакет spark-redshift и добавил в проект соединитель JDBC amazon, но продолжаю получать эту ошибку:
Exception in thread "main"...
10.01.2024
Как отсортировать более одного значения в pyspark
Я играю со Спарком. Я попробовал функцию sortBy в искре с некоторыми примерами данных.
tmp = [('e', 1), ('b', 2), ('1', 3), ('d', 4), ('2', 5),('a',1)]
sc.parallelize(tmp).sortBy(lambda (x,y): y).collect()
Это отлично работает и сортируется...
12.01.2024
Проблема с потоковой передачей файлов Spark
Я пробую простой пример потоковой передачи файлов, используя Sparkstreaming (spark-streaming_2.10, версия: 1.5.1)
public class DStreamExample {
public static void main(final String[] args) {
final SparkConf sparkConf = new...
06.11.2023
Spark выполняет каждое действие два раза
Я создал простое Java-приложение, которое использует Apache Spark для извлечения данных из Cassandra, выполняет некоторые преобразования и сохраняет их в другой таблице Cassandra.
Я использую Apache Spark 1.4.1, настроенный в автономном режиме...
20.11.2023
Pyspark несколько заданий параллельно
У меня следующая ситуация с моим Pyspark:
В моей программе-драйвере (driver.py) я вызываю функцию из другого файла (prod.py)
latest_prods = prod.featurize_prods().
Код драйвера:
from Featurize import Featurize
from LatestProd import...
12.11.2023
Как преобразовать набор результатов Cassandra в кадр данных Spark?
Обычно я загружаю данные из Cassandra в Apache Spark таким образом, используя Java:
SparkContext sparkContext = StorakleSparkConfig.getSparkContext();
CassandraSQLContext sqlContext = new CassandraSQLContext(sparkContext);...
03.11.2023
model.predictProbabilities() для логистической регрессии в Spark?
Я запускаю многоклассовую логистическую регрессию (с LBFGS) со Spark 1.6.
учитывая x и возможные метки {1.0,2.0,3.0} , окончательная модель будет только выводить лучший прогноз, скажем, 2.0 .
Если мне интересно узнать, какой прогноз...
07.01.2024
Идиоматический способ превратить источник Akka в Spark InputDStream
По сути, я пытаюсь сделать противоположное тому, что задают в этот вопрос ; то есть используйте Source[A] для вставки элементов в InputDStream[A] .
До сих пор мне удавалось собрать воедино реализацию, использующую актор Feeder и актор...
28.12.2023
zip RDD, созданные из разных входных файлов
У меня есть два файла в HDFS с одинаковым количеством строк. Строки из файлов соответствуют друг другу по номеру строки.
lines1=sc.textFile('1.txt')
lines2=sc.textFile('2.txt')
Мой вопрос: как правильно заархивировать rdd lines1 с lines2?...
20.11.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..