Nano Hash - криптовалюты, майнинг, программирование

Публикации по теме 'hive'


Хаки Apache Hive для специалиста по данным: часть I
Для всех специалистов по данным в какой-то момент времени мы все сталкивались с ситуацией, когда нам нужно обрабатывать крупномасштабные данные в нашем конвейере разработки моделей. Если вы работаете в группах машинного обучения/искусственного интеллекта в крупных организациях, почти неизбежно в какой-то момент вам понадобится использовать Hive. Hive — это SQL-движок для работы с большими данными, построенный на базе Hadoop (инфраструктура больших данных), который упрощает выполнение..

Вопросы по теме 'hive'

Поддержка клиента Python для запуска Hive поверх Amazon EMR
Я заметил, что ни mrjob, ни boto не поддерживают интерфейс Python для отправки и запуска заданий Hive в Amazon Elastic MapReduce (EMR). Существуют ли какие-либо другие клиентские библиотеки Python, поддерживающие запуск Hive на EMR?

Как мне скомпилировать Hive UDF
Я пытаюсь скомпилировать этот UDF: package com.dataminelab.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; import java.security.*; /** * Calculate md5 of the string */ public final class Md5 extends UDF {...

использование sqoop для обновления таблицы куста
Я пытаюсь извлечь данные из базы данных MySQL, где у меня есть таблица с первичным ключом и полем last_updated. Я пытаюсь по существу получить все записи, которые были недавно обновлены, и перезаписать текущие записи на складе улья. Я пробовал...
28.11.2023

Разница в статистике из отчета Google Analytics и данных BigQuery в таблице Hive
У меня есть премиум-аккаунт Google Analytics, настроенный для отслеживания активности пользователей на веб-сайте и в мобильном приложении. Необработанные данные из GA хранятся в таблицах BigQuery. Однако я заметил, что статистика, которую я вижу...

Как применить раздел к таблице кустов, которая уже разделена
Как применить раздел к таблице куста, которая уже разделена. Я не могу получить разделенные данные в папку после загрузки данных.
22.11.2023

Где найти журналы выполнения заданий для Apache Tez
Я настроил Tez поверх Hadoop. Я запускаю запрос select COUNT(DISTINCT first_name) from user_test where country='India'; using hive. Когда я использую hive.execution.engine=mr (mr) в качестве среды выполнения, задание выполняется успешно, а...
16.11.2023

Создать индекс Hive для сложного столбца
Можно создать индекс для сложного столбца в улье. Сложные, как в столбцах карты, структуры, массива и т. д. Пример: CREATE TABLE employees ( name STRING, salary FLOAT, subordinates ARRAY<STRING>, deductions...

вставка нескольких файлов из таблицы куста не работает?
Привет, у меня есть 200 ГБ данных в одной из моих таблиц кустов, поддерживаемых HBase. Я должен создать 142 различных файла из этой таблицы, в настоящее время пытаясь только для 3 файлов. Я хочу, чтобы все запросы выполнялись параллельно...
14.12.2023

Сравнительный анализ производительности между Hive (на Tez) и Spark для моего конкретного случая использования
Я играю с некоторыми данными в кластере и хочу выполнить некоторые агрегации --- ничего сложного, но сложнее, чем сумма, есть несколько объединений и подсчет различных. Я реализовал эту агрегацию в Hive и Spark с помощью Scala и хочу сравнить время...

Как интегрировать Hive (таблицы avro) с реестром схем?
Hive предоставляет два свойства таблицы, позволяющие определить схему Avro: avro.schema.literal и avro.schema.url , где первый может указать путь hdfs или конечную точку http, обслуживающую схему. Я хочу использовать Реестр схемы в качестве...
26.10.2023

Разбор вложенного файла xml возвращает нулевые данные в улье
Я анализирую вложенный файл xml, используя hivexml serde, но он возвращает значение null, пока мы выбираем данные из таблицы кустов. Пример XML-файла – это xml-данные . Запрос, который я создал для анализа xml. CREATE EXTERNAL TABLE IF NOT...
24.01.2024

Предотвращение переполнения при преобразовании даты
При использовании ввода даты мы создали значение, которое, по нашему мнению, было бы очень неправильным: 45 февраля 2017 года или «2017-02-45». Это привело к добавлению переполнения дней в следующем месяце, и мы закончили с мартовской датой. Есть ли...
18.12.2023

как оператор не работает на улье, что делать?
выберите * из отмены, где deduction_percentage например «% 100% плата за отмену%»; SemanticException [Ошибка 10014]: Строка 1:27 Неправильные аргументы ''% 100% плата за отмену%'': Нет метода сопоставления для класса...
27.11.2023

HIVE: заменить пустые результаты на 0 в группе по операторам
Я новый пользователь Hive, и мне нужно агрегировать сумму сумм для данной таблицы. Рассмотрим упрощенный пример ниже: SELECT day, sum(amount) FROM tableX WHERE columnA = 'RareValue' GROUP BY day; Предположим, что возможно, что нет записи...

Как Hive on Spark может читать данные из jdbc?
Мы используем Hive в Spark, и мы хотим делать все в Hive, а также использовать Spark для вычислений. Это означает, что нам не нужно писать код карты / сокращения, а код, подобный sql. И теперь у нас возникла проблема, мы хотим читать источник...
21.12.2023

Как проверить столбцы при добавлении раздела улья?
У меня есть таблица кустов, созданная следующим образом: CREATE EXTERNAL TABLE test_db.test( region STRING, start_date STRING ) PARTITIONED BY ( id STRING ) STORED AS PARQUET. У меня есть скрипт для добавления файлов паркета...
15.11.2023

при создании таблицы Hive для csv, сохраненного в S3, мне обязательно нужно упорядочивать поля в порядке значений, разделенных запятыми, для строк в csv?
при создании таблицы Hive для csv, сохраненного в S3, мне обязательно нужно упорядочивать поля в порядке значений, разделенных запятыми, для строк в csv? csv имеет первую строку в качестве заголовка. Я понимаю, что csv основан на строках, а не на...

запись улья вставлена, но затем появляется ошибка
Я создаю таблицу в улье: CREATE TABLE `test3`.`shop_dim` ( `shop_id` bigint, `shop_name` string, `shop_company_id` bigint, `shop_url1` string, `shop_url2` string,...
27.10.2023

Сопоставьте два столбца в один на Athena, используя свойства SerDe
Я пытаюсь сопоставить два столбца в один на Афине, используя свойства JsonSerDe. В этом случае я хочу отобразить оба столбца conversionsRate и cr из jsons 1 и 2 в столбец cr_new (как при объединении). json1 { "deviceType":...

Импорт Sqoop из схемы NON-DEFAULT Netezza
Я хочу импортировать таблицу Netezza в определенную схему, отличную от стандартной, с помощью следующей команды: sqoop import \ --connect jdbc:netezza://netezza-host-name:5480/NZDATABASE \ --table MY_SCHEMA.MY_TABLE \ --username user...
02.12.2023

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..