Nano Hash - криптовалюты, майнинг, программирование

Вопросы по теме 'apache-spark-sql'

Как Spark взаимодействует с Redshift?
Я использую Spark уже пару лет, и моя новая команда использует Redshift. Я успешно связал кластеры Spark / Redhshift и могу успешно выполнять запросы Redshift через Spark и выгружать их в S3. Если я правильно понимаю, когда я генерирую фрейм...

Как использовать структуры для имен столбцов и значений?
Я играю со Spark в Scala. У меня есть эта структура: case class MovieRatings(movieName: String, rating: Double) case class MovieCritics(name: String, movieRatings: List[MovieRatings]) Первоклассный фильм и рейтинг, данный каким-то критиком....

SQL: объединение двух таблиц для поиска первой совпадающей записи в подмножестве
У меня есть данные, которые содержат сообщения запроса/ответа. Я разделил его на две таблицы. Таблица t1 содержит все запросы, а t2 содержит все ответы. Кадр указывает номер кадра, а время указывает отметку времени. Теперь мне нужно сопоставить...
20.01.2024

Замените нулевые значения столбца его средним значением в Spark DataFrame.
Есть ли в Spark функция, которая может вычислить среднее значение столбца в DataFrame, игнорируя null/NaN? Как и в R, мы можем передать такую ​​опцию, как na.rm=TRUE. Когда я применяю avg() к столбцу с NaN, я получаю только NaN.

ValueError: невозможно преобразовать столбец в bool
Я пытаюсь создать новый столбец в фрейме данных, как показано ниже: l = [(2, 1), (1,1)] df = spark.createDataFrame(l) def calc_dif(x,y): if (x>y) and (x==1): return x-y dfNew = df.withColumn("calc", calc_dif(df["_1"], df["_2"]))...

Scala инициализирует sc.parallelise внутри, если блокирует и выполняет внешний цикл
У меня есть следующий код: - case class event(id: String, date: String) object test { def main(args: Array[String]) { var collection = null if(some_condition){ val a = some_value val b = value2 val value3 =...

Обязательно ли использовать df.unpersist() после использования df.cache()?
Обязательно ли использовать df.unpersist() после использования df.cache() для освобождения кэш-памяти? Если я сохраняю свой DataFrame в кеше без сохранения, тогда код работает очень быстро. Однако, когда я использую df.unpersist() , это...

поддержка подзапросов Spark SQL Scala DSL
Поддерживает ли SparkSQL подзапрос? указано, что в настоящее время поддержка подзапросов для spark 2.0 недоступна. Это изменилось в последнее время?
17.11.2023

Преобразование кадра данных Spark в кадр данных R
Я использую R в Zeppelin на работе для разработки моделей машинного обучения. Я извлекаю данные из таблиц Hive, используя %sparkr, sql(Constring, 'select * from table') , и по умолчанию он создает фрейм данных spark с 94 миллионами записей. Однако...

Как выбрать определенные строки в соответствии с другим столбцом?
Я новичок в наборе данных Spark SQL. Ниже приведена моя таблица набора данных, состоящая из нескольких столбцов, как показано ниже. +---+--------+--------+-----------+---------+---------+--------------------+--------+----------+----------+...
10.01.2024

Spark сортирует уже отсортированные разделы, что приводит к потере производительности
Для кешированного фрейма данных, разделенного и отсортированного внутри разделов, я получаю хорошую производительность при запросе ключа с предложением where , но плохую производительность при выполнении соединения с небольшой таблицей по тому же...

Проекция / выталкивание раздела Spark и вывод схемы с секционированным JSON
Я хотел бы прочитать подмножество секционированных данных в формате JSON с искрой (3.0.1), выводящей схему из JSON. Мои данные разделены как s3a://bucket/path/type=[something]/dt=2020-01-01/ Когда я пытаюсь прочитать это с помощью...

Невозможно прочитать представление необработанного файла в кадре данных как структурированное представление
Я читаю файл .csv в Databricks, но когда я читаю файл, я отображаю результат так, как показано в файле .csv — вместе с символами вертикальной черты, при этом все отображается в одном столбце. Это позволяет мне работать с данными. Однако сейчас я...

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..