Публикации по теме apache-spark

Публикации по теме 'apache-spark'

Spark Pipelines: элегантный, но мощный

Эрик Сюй - специалист по данным, разработчик Rails в Outbrain. Он участвовал в семинаре Insight Spark Lab в Нью-Йорке. Мы все страдали от повторного открытия проекта машинного обучения и попыток отследить наш мыслительный процесс. Часто это похоже на джунгли, где десятки этапов разработки функций пересекаются с сумкой отрегулированных вручную моделей. Если мы не можем легко следовать нашему собственному коду, как могут другие? Вот почему я был взволнован, когда во время Insight..

Вопросы по теме 'apache-spark'

Redis в Spark: задача не сериализуема

Мы используем Redis в Spark для кэширования наших пар ключ-значение. Это код: import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId =...

redis apache-spark scala

12.12.2023

Несовместимость между модулями (искра и причал) с использованием maven

Я создаю программу, которая использует библиотеки spark и jetty. Зависимости управляются maven. Проблема в том, что некоторые классы не найдены, если определены зависимости бота. В частности org.eclipse.jetty.server.ServerConnector . С другими...

dependencies java maven apache-spark jetty

03.12.2023

pySpark Создать DataFrame из RDD с ключом / значением

Если у меня есть RDD ключа / значения (ключ является индексом столбца), можно ли загрузить его в фрейм данных? Например: (0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18) И пусть фрейм данных выглядит так: 1,2,18...

apache-spark pyspark

04.12.2023

Можем ли мы начать новый поток в foreachRDD в потоковой передаче искры?

Я хочу запустить дочерний поток в foreachRDD. Моя ситуация: задание постоянно читает из каталога hdfs, и каждые 100 пакетов я хочу запустить задачу обучения модели (в это время я сделаю снимок rdds и запущу задачу обучения. задача обучения...

apache-spark spark-streaming

29.12.2023

Сохраните искровой RDD в локальной файловой системе с помощью Java.

У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS. Я хочу записать файл в свою локальную файловую систему,...

java sql-server apache-spark hdfs rdd

06.12.2023

Не удается установить Ganglia на EMR 4.0.0

Я следую этому руководству, чтобы установить Spark на последний кластер AMI/EMR: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-spark-launch.html Я хотел бы установить Ganglia для мониторинга кластера, поэтому я добавил...

amazon-web-services apache-spark emr ganglia

06.12.2023

Как разделить файл последовательности в Spark

Я новичок в Spark и пытаюсь прочитать файл последовательности и использовать его в задаче классификации. Вот как я читаю файл последовательности val tfidf = sc.sequenceFile("/user/hadoop/strainingtesting/tfidf-vectors", classOf[Text],...

apache-spark scala

13.12.2023

Могу ли я добавить аргументы в код Python при отправке задания на искру?

Я пытаюсь использовать spark-submit для выполнения моего кода Python в искровом кластере. Обычно мы запускаем spark-submit с кодом Python, как показано ниже. # Run a Python application on a cluster ./bin/spark-submit \ --master...

python apache-spark cluster-mode

10.01.2024

Почему Spark не перераспределяет задачи между исполнителями?

Я запускаю искровую работу, которая завершена на 99%. Последний 1% занимает много времени, поэтому я проверил трекер вакансий. Как показано на скриншоте, мы видим, что у некоторых исполнителей все еще есть несколько активных задач, а у некоторых нет...

apache-spark parallel-processing emr

12.01.2024

Объединение наборов данных неравного размера в Spark

У меня есть следующие наборы данных: Dataset 1: Dataset 2: Dataset 3: id field1 l_id r_id id field2 Вот их размеры: Dataset1: 20G Dataset2: 5T Dataset3: 20G Цель : я...

apache-spark join partitioning

05.01.2024

Как создать коллекцию RDD из RDD?

У меня RDD[String] , wordRDD . У меня также есть функция, которая создает RDD[String] из строки/слова. Я хотел бы создать новый RDD для каждой строки в wordRDD . Вот мои попытки: 1) Ошибка, поскольку Spark не поддерживает вложенные RDD:...

apache-spark scala

18.11.2023

Не удалось подключиться к красному смещению от искры

Я пытаюсь прочитать данные из красного смещения в искру 1.5, используя scala 2.10. Я собрал пакет spark-redshift и добавил в проект соединитель JDBC amazon, но продолжаю получать эту ошибку: Exception in thread "main"...

apache-spark scala amazon-redshift

10.01.2024

Как отсортировать более одного значения в pyspark

Я играю со Спарком. Я попробовал функцию sortBy в искре с некоторыми примерами данных. tmp = [('e', 1), ('b', 2), ('1', 3), ('d', 4), ('2', 5),('a',1)] sc.parallelize(tmp).sortBy(lambda (x,y): y).collect() Это отлично работает и сортируется...

python-2.7 lambda apache-spark pyspark

12.01.2024

Проблема с потоковой передачей файлов Spark

Я пробую простой пример потоковой передачи файлов, используя Sparkstreaming (spark-streaming_2.10, версия: 1.5.1) public class DStreamExample { public static void main(final String[] args) { final SparkConf sparkConf = new...

apache-spark spark-streaming

06.11.2023

Spark выполняет каждое действие два раза

Я создал простое Java-приложение, которое использует Apache Spark для извлечения данных из Cassandra, выполняет некоторые преобразования и сохраняет их в другой таблице Cassandra. Я использую Apache Spark 1.4.1, настроенный в автономном режиме...

java apache-spark spark-cassandra-connector

20.11.2023

Pyspark несколько заданий параллельно

У меня следующая ситуация с моим Pyspark: В моей программе-драйвере (driver.py) я вызываю функцию из другого файла (prod.py) latest_prods = prod.featurize_prods(). Код драйвера: from Featurize import Featurize from LatestProd import...

python apache-spark pyspark

12.11.2023

Как преобразовать набор результатов Cassandra в кадр данных Spark?

Обычно я загружаю данные из Cassandra в Apache Spark таким образом, используя Java: SparkContext sparkContext = StorakleSparkConfig.getSparkContext(); CassandraSQLContext sqlContext = new CassandraSQLContext(sparkContext);...

apache-spark spark-cassandra-connector datastax cassandra-2.0

03.11.2023

model.predictProbabilities() для логистической регрессии в Spark?

Я запускаю многоклассовую логистическую регрессию (с LBFGS) со Spark 1.6. учитывая x и возможные метки {1.0,2.0,3.0} , окончательная модель будет только выводить лучший прогноз, скажем, 2.0 . Если мне интересно узнать, какой прогноз...

apache-spark apache-spark-mllib logistic-regression

07.01.2024

Идиоматический способ превратить источник Akka в Spark InputDStream

По сути, я пытаюсь сделать противоположное тому, что задают в этот вопрос ; то есть используйте Source[A] для вставки элементов в InputDStream[A] . До сих пор мне удавалось собрать воедино реализацию, использующую актор Feeder и актор...

apache-spark spark-streaming scala akka akka-stream

28.12.2023

zip RDD, созданные из разных входных файлов

У меня есть два файла в HDFS с одинаковым количеством строк. Строки из файлов соответствуют друг другу по номеру строки. lines1=sc.textFile('1.txt') lines2=sc.textFile('2.txt') Мой вопрос: как правильно заархивировать rdd lines1 с lines2?...

apache-spark rdd

20.11.2023

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP