Вопросы по теме 'bigdata'
Текстовый редактор для файлов размером в гигабайт
Возможный дубликат: Текстовый редактор для открытия больших (гигантских, огромных, больших) текстовых файлов
Я видел текстовый редактор для открытия больших текстовых файлов но этот вопрос относится к файлам размером в мегабайт. Я...
30.10.2023
Вычесть все пары значений из двух массивов
У меня есть два вектора, v1 и v2 . Я хотел бы вычесть каждое значение v2 из каждого значения v1 и сохранить результаты в другом векторе. Я также хотел бы работать с очень большими векторами (например, размером 1e6), поэтому я думаю, что мне...
22.12.2023
Найдите расстояние между более чем 100 000 местоположений
У меня есть две таблицы MySQL с местоположениями, table1 и table2 (см. ниже). В каждой таблице > 100 тыс. строк. Я хотел бы найти расстояние между каждым местоположением в этих двух таблицах, используя их геолокации.
Вот запрос MySQL, чтобы...
28.11.2023
Нужно меньше паркетных напильников
Я делаю следующий процесс
rdd.toDF.write.mode(SaveMode.Append).partitionBy("Some Column").parquet(output_path)
Однако в каждом разделе слишком много файлов паркета, и каждый из них имеет очень маленький размер, из-за чего мои следующие шаги...
27.10.2023
Обработка данных PIG
У меня есть следующее требование. Пожалуйста, помогите мне, как я могу обработать его с помощью apache pig?
ВВОД:
**
SYSTEM IP : 1.1.1.1
KERNEL : CENT OS
UP TIME : 0.00 , 0.00
**
IP-адрес системы: 2.2.2.2
ЯДРО: ЦЕНТР ОС
ВРЕМЯ...
06.01.2024
как RAM используется в обработке mapreduce?
Необходимо разъяснение по обработке, такие демоны, как (namenode, datanode, jobttracker, средство отслеживания задач), все они лежат в кластере (кластер с одним узлом - они распределены на жестком диске). Каково использование ОЗУ или кеша при...
13.11.2023
Изменение имени кластера DCOS после установки
Я пропустил обновление имени кластера (имя_кластера) в файле genconf/config.yaml моего загрузочного узла перед развертыванием кластера DC/OS. Мне было интересно, есть ли файл конфигурации/свойств в узлах (или с использованием dcos-cli или в etcd),...
24.11.2023
MySQL INSERT SELECT Большой набор данных из 420 миллионов записей
У меня есть большой набор данных примерно из 420 миллионов записей, и я смог своевременно загрузить их во временную таблицу примерно за 15 минут, используя оператор LOAD DATA INFILE . Мне нужна эта временная таблица для хранения данных, потому что я...
01.01.2024
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..