Вопросы по теме 'pyspark-sql'
запутанное внутреннее соединение в pyspark
Я использую внутреннее соединение в оболочке pyspark следующим образом:
tab_df=ori_df.join(ori_df,ori_df.columns,'inner')
Поскольку я использую ту же таблицу для внутреннего соединения, следует ожидать, что tab_df.count() должно быть равно...
21.11.2023
pyspark делает два столбца из списка в один столбец
Это моя первая строка данных:
Row(params=['id=407439', 'a=something', 'b=something_else', 'c=anything', 'd='])
Мне нужны два столбца со значениями a и b .
Row(a='a=something', b='b=something_else')
or
Row(a='something',...
04.01.2024
ValueError: невозможно преобразовать столбец в bool
Я пытаюсь создать новый столбец в фрейме данных, как показано ниже:
l = [(2, 1), (1,1)]
df = spark.createDataFrame(l)
def calc_dif(x,y):
if (x>y) and (x==1):
return x-y
dfNew = df.withColumn("calc", calc_dif(df["_1"], df["_2"]))...
13.12.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..