Публикации по теме apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Как Spark взаимодействует с Redshift?

Я использую Spark уже пару лет, и моя новая команда использует Redshift. Я успешно связал кластеры Spark / Redhshift и могу успешно выполнять запросы Redshift через Spark и выгружать их в S3. Если я правильно понимаю, когда я генерирую фрейм...

24.11.2023

Как использовать структуры для имен столбцов и значений?

Я играю со Spark в Scala. У меня есть эта структура: case class MovieRatings(movieName: String, rating: Double) case class MovieCritics(name: String, movieRatings: List[MovieRatings]) Первоклассный фильм и рейтинг, данный каким-то критиком....

apache-spark apache-spark-sql scala

25.12.2023

SQL: объединение двух таблиц для поиска первой совпадающей записи в подмножестве

У меня есть данные, которые содержат сообщения запроса/ответа. Я разделил его на две таблицы. Таблица t1 содержит все запросы, а t2 содержит все ответы. Кадр указывает номер кадра, а время указывает отметку времени. Теперь мне нужно сопоставить...

sql apache-spark-sql

20.01.2024

Замените нулевые значения столбца его средним значением в Spark DataFrame.

Есть ли в Spark функция, которая может вычислить среднее значение столбца в DataFrame, игнорируя null/NaN? Как и в R, мы можем передать такую опцию, как na.rm=TRUE. Когда я применяю avg() к столбцу с NaN, я получаю только NaN.

apache-spark pyspark apache-spark-sql

13.01.2024

ValueError: невозможно преобразовать столбец в bool

Я пытаюсь создать новый столбец в фрейме данных, как показано ниже: l = [(2, 1), (1,1)] df = spark.createDataFrame(l) def calc_dif(x,y): if (x>y) and (x==1): return x-y dfNew = df.withColumn("calc", calc_dif(df["_1"], df["_2"]))...

apache-spark pyspark apache-spark-sql pyspark-sql

13.12.2023

Scala инициализирует sc.parallelise внутри, если блокирует и выполняет внешний цикл

У меня есть следующий код: - case class event(id: String, date: String) object test { def main(args: Array[String]) { var collection = null if(some_condition){ val a = some_value val b = value2 val value3 =...

apache-kafka apache-spark apache-spark-sql scala spark-cassandra-connector

08.01.2024

Обязательно ли использовать df.unpersist() после использования df.cache()?

Обязательно ли использовать df.unpersist() после использования df.cache() для освобождения кэш-памяти? Если я сохраняю свой DataFrame в кеше без сохранения, тогда код работает очень быстро. Однако, когда я использую df.unpersist() , это...

apache-spark apache-spark-sql scala

10.01.2024

поддержка подзапросов Spark SQL Scala DSL

Поддерживает ли SparkSQL подзапрос? указано, что в настоящее время поддержка подзапросов для spark 2.0 недоступна. Это изменилось в последнее время?

apache-spark-sql

17.11.2023

Преобразование кадра данных Spark в кадр данных R

Я использую R в Zeppelin на работе для разработки моделей машинного обучения. Я извлекаю данные из таблиц Hive, используя %sparkr, sql(Constring, 'select * from table') , и по умолчанию он создает фрейм данных spark с 94 миллионами записей. Однако...

r apache-spark apache-spark-sql sparkr apache-zeppelin

28.12.2023

Как выбрать определенные строки в соответствии с другим столбцом?

Я новичок в наборе данных Spark SQL. Ниже приведена моя таблица набора данных, состоящая из нескольких столбцов, как показано ниже. +---+--------+--------+-----------+---------+---------+--------------------+--------+----------+----------+...

apache-spark-sql

10.01.2024

Spark сортирует уже отсортированные разделы, что приводит к потере производительности

Для кешированного фрейма данных, разделенного и отсортированного внутри разделов, я получаю хорошую производительность при запросе ключа с предложением where , но плохую производительность при выполнении соединения с небольшой таблицей по тому же...

optimization caching apache-spark pyspark apache-spark-sql

02.12.2023

Проекция / выталкивание раздела Spark и вывод схемы с секционированным JSON

Я хотел бы прочитать подмножество секционированных данных в формате JSON с искрой (3.0.1), выводящей схему из JSON. Мои данные разделены как s3a://bucket/path/type=[something]/dt=2020-01-01/ Когда я пытаюсь прочитать это с помощью...

json apache-spark pyspark apache-spark-sql

05.01.2024

Невозможно прочитать представление необработанного файла в кадре данных как структурированное представление

Я читаю файл .csv в Databricks, но когда я читаю файл, я отображаю результат так, как показано в файле .csv — вместе с символами вертикальной черты, при этом все отображается в одном столбце. Это позволяет мне работать с данными. Однако сейчас я...

python apache-spark azure-databricks databricks apache-spark-sql

12.12.2023

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP

Вопросы по теме 'apache-spark-sql'

Новые материалы

Теги