Nano Hash - криптовалюты, майнинг, программирование

Публикации по теме 'apache-spark'


Spark Pipelines: элегантный, но мощный
Эрик Сюй - специалист по данным, разработчик Rails в Outbrain. Он участвовал в семинаре Insight Spark Lab в Нью-Йорке. Мы все страдали от повторного открытия проекта машинного обучения и попыток отследить наш мыслительный процесс. Часто это похоже на джунгли, где десятки этапов разработки функций пересекаются с сумкой отрегулированных вручную моделей. Если мы не можем легко следовать нашему собственному коду, как могут другие? Вот почему я был взволнован, когда во время Insight..

Вопросы по теме 'apache-spark'

Redis в Spark: задача не сериализуема
Мы используем Redis в Spark для кэширования наших пар ключ-значение. Это код: import com.redis.RedisClient val r = new RedisClient("192.168.1.101", 6379) val perhit = perhitFile.map(x => { val arr = x.split(" ") val readId =...
12.12.2023

Несовместимость между модулями (искра и причал) с использованием maven
Я создаю программу, которая использует библиотеки spark и jetty. Зависимости управляются maven. Проблема в том, что некоторые классы не найдены, если определены зависимости бота. В частности org.eclipse.jetty.server.ServerConnector . С другими...

pySpark Создать DataFrame из RDD с ключом / значением
Если у меня есть RDD ключа / значения (ключ является индексом столбца), можно ли загрузить его в фрейм данных? Например: (0,1), (0,1), (0,2), (1,2), (1,10), (1,20), (3,18), (3,18), (3,18) И пусть фрейм данных выглядит так: 1,2,18...
04.12.2023

Можем ли мы начать новый поток в foreachRDD в потоковой передаче искры?
Я хочу запустить дочерний поток в foreachRDD. Моя ситуация: задание постоянно читает из каталога hdfs, и каждые 100 пакетов я хочу запустить задачу обучения модели (в это время я сделаю снимок rdds и запущу задачу обучения. задача обучения...

Сохраните искровой RDD в локальной файловой системе с помощью Java.
У меня есть RDD, созданный с помощью Spark. Теперь, если я запишу этот RDD в CSV-файл, мне будут предоставлены некоторые методы, такие как «saveAsTextFile()», которые выводят CSV-файл в HDFS. Я хочу записать файл в свою локальную файловую систему,...

Не удается установить Ganglia на EMR 4.0.0
Я следую этому руководству, чтобы установить Spark на последний кластер AMI/EMR: http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr-spark-launch.html Я хотел бы установить Ganglia для мониторинга кластера, поэтому я добавил...

Как разделить файл последовательности в Spark
Я новичок в Spark и пытаюсь прочитать файл последовательности и использовать его в задаче классификации. Вот как я читаю файл последовательности val tfidf = sc.sequenceFile("/user/hadoop/strainingtesting/tfidf-vectors", classOf[Text],...
13.12.2023

Могу ли я добавить аргументы в код Python при отправке задания на искру?
Я пытаюсь использовать spark-submit для выполнения моего кода Python в искровом кластере. Обычно мы запускаем spark-submit с кодом Python, как показано ниже. # Run a Python application on a cluster ./bin/spark-submit \ --master...

Почему Spark не перераспределяет задачи между исполнителями?
Я запускаю искровую работу, которая завершена на 99%. Последний 1% занимает много времени, поэтому я проверил трекер вакансий. Как показано на скриншоте, мы видим, что у некоторых исполнителей все еще есть несколько активных задач, а у некоторых нет...

Объединение наборов данных неравного размера в Spark
У меня есть следующие наборы данных: Dataset 1: Dataset 2: Dataset 3: id field1 l_id r_id id field2 Вот их размеры: Dataset1: 20G Dataset2: 5T Dataset3: 20G Цель : я...

Как создать коллекцию RDD из RDD?
У меня RDD[String] , wordRDD . У меня также есть функция, которая создает RDD[String] из строки/слова. Я хотел бы создать новый RDD для каждой строки в wordRDD . Вот мои попытки: 1) Ошибка, поскольку Spark не поддерживает вложенные RDD:...
18.11.2023

Не удалось подключиться к красному смещению от искры
Я пытаюсь прочитать данные из красного смещения в искру 1.5, используя scala 2.10. Я собрал пакет spark-redshift и добавил в проект соединитель JDBC amazon, но продолжаю получать эту ошибку: Exception in thread "main"...

Как отсортировать более одного значения в pyspark
Я играю со Спарком. Я попробовал функцию sortBy в искре с некоторыми примерами данных. tmp = [('e', 1), ('b', 2), ('1', 3), ('d', 4), ('2', 5),('a',1)] sc.parallelize(tmp).sortBy(lambda (x,y): y).collect() Это отлично работает и сортируется...

Проблема с потоковой передачей файлов Spark
Я пробую простой пример потоковой передачи файлов, используя Sparkstreaming (spark-streaming_2.10, версия: 1.5.1) public class DStreamExample { public static void main(final String[] args) { final SparkConf sparkConf = new...

Spark выполняет каждое действие два раза
Я создал простое Java-приложение, которое использует Apache Spark для извлечения данных из Cassandra, выполняет некоторые преобразования и сохраняет их в другой таблице Cassandra. Я использую Apache Spark 1.4.1, настроенный в автономном режиме...

Pyspark несколько заданий параллельно
У меня следующая ситуация с моим Pyspark: В моей программе-драйвере (driver.py) я вызываю функцию из другого файла (prod.py) latest_prods = prod.featurize_prods(). Код драйвера: from Featurize import Featurize from LatestProd import...

Как преобразовать набор результатов Cassandra в кадр данных Spark?
Обычно я загружаю данные из Cassandra в Apache Spark таким образом, используя Java: SparkContext sparkContext = StorakleSparkConfig.getSparkContext(); CassandraSQLContext sqlContext = new CassandraSQLContext(sparkContext);...

model.predictProbabilities() для логистической регрессии в Spark?
Я запускаю многоклассовую логистическую регрессию (с LBFGS) со Spark 1.6. учитывая x и возможные метки {1.0,2.0,3.0} , окончательная модель будет только выводить лучший прогноз, скажем, 2.0 . Если мне интересно узнать, какой прогноз...

Идиоматический способ превратить источник Akka в Spark InputDStream
По сути, я пытаюсь сделать противоположное тому, что задают в этот вопрос ; то есть используйте Source[A] для вставки элементов в InputDStream[A] . До сих пор мне удавалось собрать воедино реализацию, использующую актор Feeder и актор...

zip RDD, созданные из разных входных файлов
У меня есть два файла в HDFS с одинаковым количеством строк. Строки из файлов соответствуют друг другу по номеру строки. lines1=sc.textFile('1.txt') lines2=sc.textFile('2.txt') Мой вопрос: как правильно заархивировать rdd lines1 с lines2?...
20.11.2023

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..