Публикации по теме 'hive'
Хаки Apache Hive для специалиста по данным: часть I
Для всех специалистов по данным в какой-то момент времени мы все сталкивались с ситуацией, когда нам нужно обрабатывать крупномасштабные данные в нашем конвейере разработки моделей. Если вы работаете в группах машинного обучения/искусственного интеллекта в крупных организациях, почти неизбежно в какой-то момент вам понадобится использовать Hive. Hive — это SQL-движок для работы с большими данными, построенный на базе Hadoop (инфраструктура больших данных), который упрощает выполнение..
Вопросы по теме 'hive'
Поддержка клиента Python для запуска Hive поверх Amazon EMR
Я заметил, что ни mrjob, ни boto не поддерживают интерфейс Python для отправки и запуска заданий Hive в Amazon Elastic MapReduce (EMR). Существуют ли какие-либо другие клиентские библиотеки Python, поддерживающие запуск Hive на EMR?
29.11.2023
Как мне скомпилировать Hive UDF
Я пытаюсь скомпилировать этот UDF:
package com.dataminelab.hive.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
import java.security.*;
/**
* Calculate md5 of the string
*/
public final class Md5 extends UDF {...
11.12.2023
использование sqoop для обновления таблицы куста
Я пытаюсь извлечь данные из базы данных MySQL, где у меня есть таблица с первичным ключом и полем last_updated. Я пытаюсь по существу получить все записи, которые были недавно обновлены, и перезаписать текущие записи на складе улья.
Я пробовал...
28.11.2023
Разница в статистике из отчета Google Analytics и данных BigQuery в таблице Hive
У меня есть премиум-аккаунт Google Analytics, настроенный для отслеживания активности пользователей на веб-сайте и в мобильном приложении.
Необработанные данные из GA хранятся в таблицах BigQuery.
Однако я заметил, что статистика, которую я вижу...
08.01.2024
Как применить раздел к таблице кустов, которая уже разделена
Как применить раздел к таблице куста, которая уже разделена. Я не могу получить разделенные данные в папку после загрузки данных.
22.11.2023
Где найти журналы выполнения заданий для Apache Tez
Я настроил Tez поверх Hadoop. Я запускаю запрос select COUNT(DISTINCT first_name) from user_test where country='India'; using hive.
Когда я использую hive.execution.engine=mr (mr) в качестве среды выполнения, задание выполняется успешно, а...
16.11.2023
Создать индекс Hive для сложного столбца
Можно создать индекс для сложного столбца в улье. Сложные, как в столбцах карты, структуры, массива и т. д.
Пример:
CREATE TABLE employees (
name STRING,
salary FLOAT,
subordinates ARRAY<STRING>,
deductions...
02.01.2024
вставка нескольких файлов из таблицы куста не работает?
Привет, у меня есть 200 ГБ данных в одной из моих таблиц кустов, поддерживаемых HBase. Я должен создать 142 различных файла из этой таблицы, в настоящее время пытаясь только для 3 файлов.
Я хочу, чтобы все запросы выполнялись параллельно...
14.12.2023
Сравнительный анализ производительности между Hive (на Tez) и Spark для моего конкретного случая использования
Я играю с некоторыми данными в кластере и хочу выполнить некоторые агрегации --- ничего сложного, но сложнее, чем сумма, есть несколько объединений и подсчет различных. Я реализовал эту агрегацию в Hive и Spark с помощью Scala и хочу сравнить время...
17.01.2024
Как интегрировать Hive (таблицы avro) с реестром схем?
Hive предоставляет два свойства таблицы, позволяющие определить схему Avro: avro.schema.literal и avro.schema.url , где первый может указать путь hdfs или конечную точку http, обслуживающую схему. Я хочу использовать Реестр схемы в качестве...
26.10.2023
Разбор вложенного файла xml возвращает нулевые данные в улье
Я анализирую вложенный файл xml, используя hivexml serde, но он возвращает значение null, пока мы выбираем данные из таблицы кустов. Пример XML-файла – это xml-данные . Запрос, который я создал для анализа xml.
CREATE EXTERNAL TABLE IF NOT...
24.01.2024
Предотвращение переполнения при преобразовании даты
При использовании ввода даты мы создали значение, которое, по нашему мнению, было бы очень неправильным: 45 февраля 2017 года или «2017-02-45». Это привело к добавлению переполнения дней в следующем месяце, и мы закончили с мартовской датой. Есть ли...
18.12.2023
как оператор не работает на улье, что делать?
выберите * из отмены, где deduction_percentage например «% 100% плата за отмену%»;
SemanticException [Ошибка 10014]: Строка 1:27 Неправильные аргументы ''% 100% плата за отмену%'': Нет метода сопоставления для класса...
27.11.2023
HIVE: заменить пустые результаты на 0 в группе по операторам
Я новый пользователь Hive, и мне нужно агрегировать сумму сумм для данной таблицы. Рассмотрим упрощенный пример ниже:
SELECT day, sum(amount) FROM tableX WHERE columnA = 'RareValue' GROUP BY day;
Предположим, что возможно, что нет записи...
08.11.2023
Как Hive on Spark может читать данные из jdbc?
Мы используем Hive в Spark, и мы хотим делать все в Hive, а также использовать Spark для вычислений. Это означает, что нам не нужно писать код карты / сокращения, а код, подобный sql.
И теперь у нас возникла проблема, мы хотим читать источник...
21.12.2023
Как проверить столбцы при добавлении раздела улья?
У меня есть таблица кустов, созданная следующим образом:
CREATE EXTERNAL TABLE test_db.test(
region STRING,
start_date STRING
)
PARTITIONED BY (
id STRING
)
STORED AS PARQUET.
У меня есть скрипт для добавления файлов паркета...
15.11.2023
при создании таблицы Hive для csv, сохраненного в S3, мне обязательно нужно упорядочивать поля в порядке значений, разделенных запятыми, для строк в csv?
при создании таблицы Hive для csv, сохраненного в S3, мне обязательно нужно упорядочивать поля в порядке значений, разделенных запятыми, для строк в csv? csv имеет первую строку в качестве заголовка. Я понимаю, что csv основан на строках, а не на...
22.12.2023
запись улья вставлена, но затем появляется ошибка
Я создаю таблицу в улье:
CREATE TABLE `test3`.`shop_dim` (
`shop_id` bigint,
`shop_name` string,
`shop_company_id` bigint,
`shop_url1` string,
`shop_url2` string,...
27.10.2023
Сопоставьте два столбца в один на Athena, используя свойства SerDe
Я пытаюсь сопоставить два столбца в один на Афине, используя свойства JsonSerDe.
В этом случае я хочу отобразить оба столбца conversionsRate и cr из jsons 1 и 2 в столбец cr_new (как при объединении).
json1
{
"deviceType":...
29.11.2023
Импорт Sqoop из схемы NON-DEFAULT Netezza
Я хочу импортировать таблицу Netezza в определенную схему, отличную от стандартной, с помощью следующей команды:
sqoop import \
--connect jdbc:netezza://netezza-host-name:5480/NZDATABASE \
--table MY_SCHEMA.MY_TABLE \
--username user...
02.12.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..