Вопросы по теме 'cuda'
Как скомпилировать файлы CUDA C и файлы Nvidia OptiX в одном проекте Visual Studio
В настоящее время я использую механизм трассировки лучей Optix в Visual Studio. Моя проблема состоит в вычислении данных и их рендеринге с помощью Optix.
Я уже написал чистую программу C CUDA для вычисления данных, но не могу интегрировать ее в...
08.11.2023
Вызов nvcc.exe с помощью CreateProcess
В настоящее время мы используем фиктивный JIT-компилятор для CUDA, где nvcc.exe вызывается для некоторых файлов и генерируются результирующие файлы .ptx.
bool executeWindowsProcess(ofstream &logFF) {
STARTUPINFO si;...
22.12.2023
Можно ли использовать тягу::device_vector и тягу::fill для 2D-массивов, используя библиотеку тяги в CUDA
Я новичок в использовании библиотеки тяги. У меня есть код CUDA C, который использует глобальные 2D-массивы. Я инициализирую его, используя функцию ядра в своем коде.
Я должен знать, можно ли использовать thrust::device_vector или thrust::fill...
15.01.2024
CUDA: почему та или иная операция копирования памятки всегда стоит в 10 раз дороже других подобных операций
Я считаю, что следующий код выполняет типичный
скопировать на устройство
вызов ядра
скопировать обратно на хост
рабочий процесс.
Что я обнаружил очень странным, так это то, что когда я использовал параметр Trace Application с...
13.01.2024
Недопустимый символ устройства при копировании в постоянную память CUDA
У меня есть несколько файлов для приложения в обработке изображений. Поскольку количество строк и столбцов для изображения не меняется при выполнении некоторого алгоритма обработки изображений, я пытался поместить эти значения в постоянную память....
04.01.2024
Реализация Max Reduce в Cuda
Я изучаю Cuda и все еще справляюсь с параллелизмом. Проблема, с которой я сталкиваюсь на данный момент, заключается в реализации максимального уменьшения массива значений. это мое ядро
__global__ void max_reduce(const float* const d_array,...
16.12.2023
Как рассчитать шаг изображения Visual Studio
Я хочу рассчитать шаг входного декодированного видеокадра. Есть ли формулы для этого. В данный момент я получаю шаг от создания декодера и вызова функции CUDA декодера отображения. НО главный вопрос: могу ли я рассчитать шаг изображения напрямую,...
21.12.2023
memset в CUBLAS всегда запускается в потоке по умолчанию
Я заметил, что при вызове функции cublasSgemm для каждого вызова gemm с хоста происходит 3 вызова ядра: memset, scal_kernel и само ядро gemm (например, sgemm_large). Это происходит, даже если я использую константы альфа/бета, выделенные в памяти...
24.11.2023
Параллелизм CUDA внутри ядра
В CUDA, как он управляет последовательным кодом внутри ядра графического процессора?
Если у меня есть ядро в цикле for , оно работает в последовательном режиме или существует логический параллелизм?
30.12.2023
cudaGetLastError возвращен (0xb)
Я пытаюсь устранить ошибку времени выполнения CUDA. Информация об отладке, сообщаемая cuda-gdb (с включенной cuda-memcheck):
warning: Cuda API error detected: cudaLaunch returned (0xb)
warning: Cuda API error detected: cudaGetLastError returned...
19.11.2023
Оценка эффективности GPU в FLOPS (CUDA SAMPLES)
Мне кажется, что я не совсем понимаю концепцию FLOPS. В CUDA SAMPLES есть пример умножения матриц (0_Simple/matrixMul). В этом примере количество FLOP (операций с плавающей запятой) на одно умножение матрицы вычисляется по формуле:
double...
17.12.2023
CUDA копирует связанные списки с устройства на хост
Я пытаюсь заполнить несколько связанных списков на устройстве, а затем вернуть эти списки обратно на хосты.
Насколько я понимаю, мне нужно выделить память для моего элемента структуры, но я не знаю, как это сделать, поскольку у меня будет много...
20.11.2023
Пакет CUDA Toolkit содержит новейший драйвер NVidia?
Содержит ли пакет CUDA Toolkit (локальный установщик) новейший стандартный драйвер NVidia? Стандартный я имею в виду самый популярный. Например драйвер для семейства geforce типа 347.88?
05.01.2024
Понимание вывода профилировщика CUDA (nvprof)
Я просто смотрю на следующий вывод и пытаюсь понять цифры:
==2906== Profiling result:
Time(%) Time Calls Avg Min Max Name
23.04% 10.9573s 16436 666.67us 64.996us 1.5927ms sgemm_sm35_ldg_tn_32x16x64x8x16...
02.11.2023
Взаимодействие cuSOLVER-sparse с использованием PyCUDA
Я пытаюсь взаимодействовать с разреженной подпрограммой cuSOLVER cusolverSpDcsrlsvqr() (>= CUDA 7.0) с помощью PyCUDA и сталкиваюсь с некоторыми трудностями: я пытался обернуть методы так же, как оборачивают плотные подпрограммы cuSolver....
25.12.2023
Филиал на основе WARP ID
Есть ли способ найти идентификатор WARP потока в CUDA? Я хочу выполнить ветку на основе идентификатора WARP.
09.12.2023
Использование cuda::morphologyex в opencv 3
Я работаю над проектом opencv, в котором используется функция morphologyex. Теперь я пытаюсь сделать это с поддержкой GPU.
Когда я компилирую свою программу с поддержкой opencv 3.0 и cuda 7.5, она принимает большинство функций (таких как...
07.11.2023
поток cuda с первым дыханием: ядра и передачи D2H
Со ссылкой на страницу 21 в этом файле презентации: http://on-demand.gputechconf.com/gtc-express/2011/presentations/StreamsAndConcurrencyWebinar.pdf
Я не понимаю, почему последовательно выпущенные ядра задерживают сигналы и блокируют передачи...
20.11.2023
Проверка ошибок NPP и CUDA
Я снова унаследовал код, который выглядит подозрительно; это в основном это:
(void) nppiFilter...(...);
cudaError_t err = cudaGetLastError();
if (err != cudaSuccess)
{
std::cerr << cudaGetErrorString(err);
}
Мы игнорируем ошибку...
01.01.2024
cublas batched gemm throw не поддерживается ошибка с большим размером партии
Я вызываю API cublasGemmStridedBatchedEx(). У меня первая матрица работает с шагом, а вторая исправлена. Программа хорошо работает с небольшими входными данными, но выдает ошибку CUBLAS_STATUS_NOT_SUPPORTED с большим размером пакета.
Согласно...
09.12.2023
Новые материалы
Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..
Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально
Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..
Частный метод Python: улучшение инкапсуляции и безопасности
Введение
Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..
Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования
Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..
Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv)
Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..
Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..
Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..