Nano Hash - криптовалюты, майнинг, программирование

CUDA копирует связанные списки с устройства на хост

Я пытаюсь заполнить несколько связанных списков на устройстве, а затем вернуть эти списки обратно на хосты.

Насколько я понимаю, мне нужно выделить память для моего элемента структуры, но я не знаю, как это сделать, поскольку у меня будет много связанных списков, каждый с неизвестным количеством элементов. Я пробовал несколько разных вещей, но это все равно не сработало. Итак, я вернулся к исходной точке. Вот мой код:

//NODE CLASS
class Node{
public:
    int x,y;
    Node *parent;
    __device__ __host__ Node(){}
    __device__ __host__ Node(int cX, int cY){x = cX; y = cY;}
    __device__ __host__ int get_row() { return x; }
    __device__ __host__ int get_col() { return y; }
};

//LINKED LIST
class LinkedList{
public:
    __device__ __host__ struct Element{
            Node n1;
            Element *next;
    };

    __device__ __host__ LinkedList(){
        head = NULL;
    }

    __device__ __host__ void addNode(Node n){
        Element *el = new Element();
        el->n1 = n;

        el->next = head;
        head = el;
    }

    __device__ __host__ Node popFirstNode(){
        Element *cur = head;
        Node n;

        if(cur != NULL){
            n = cur -> n1;
            head = head -> next;
        }

        delete cur;
        return n;
    }
    __device__ __host__ bool isEmpty(){
        Element *cur = head;

        if(cur == NULL){
            return true;
        }

        return false;
    }

    Element *head;
};

//LISTS
__global__ void listsKernel(LinkedList* d_Results, int numLists){
    int idx = blockIdx.x * blockDim.x + threadIdx.x;

    Node n(1,1);

    if(idx < numLists){
        d_Results[idx].addNode(n);
        d_Results[idx].addNode(n);
        d_Results[idx].addNode(n);
        d_Results[idx].addNode(n);
    }
}

int main(){
    int numLists = 10;
    size_t size = numLists * sizeof(LinkedList); 
    LinkedList curList;

    LinkedList* h_Results = (LinkedList*)malloc(size);
    LinkedList* d_Results;
    cudaMalloc((void**)&d_Results, size);

    listsKernel<<<256,256>>>(d_Results, numLists);
    cudaMemcpy(h_Results, d_Results, sizeof(LinkedList)*numLists, cudaMemcpyDeviceToHost);

    for(int i = 0; i < numLists; i++){
        curList = h_Results[i];
        while(curList.isEmpty() == false){
            Node n = curList.popFirstNode();
            std::cout << "x: " << n.get_row() << " y: " << n.get_col();
        }
    }
}

Как видите, я пытаюсь заполнить 10 связанных списков на устройстве, а затем вернуть их обратно на хост, но приведенный выше код приводит к необработанному исключению — место чтения с нарушением прав доступа. Я предполагаю, что он не справляется с указателями с устройства.

Любая помощь будет здорово.

07.03.2015

  • Что такое listsKernel? Где происходит нарушение прав доступа к хосту? 07.03.2015
  • память, выделенная в ядре new, не может участвовать в операции устройство-›хост cudaMemcpy, хотя это лишь одна из нескольких проблем с вашим подходом. Этот блог может представлять интерес. 08.03.2015
  • Одна из схем, упрощающая копирование списков между хостом и устройством, заключается в использовании массива для хранения узлов списка и использовании индексов массива, а не указателей для связывания. Это также позволяет хранить все узлы списка в одном непрерывном блоке памяти. Этот блок памяти может быть легко скопирован на хост или между хостом и устройством, или отправлен в массовое хранилище и получен из него, и все связи между узлами остаются в силе. Хранилище можно расширить позже, выделив больший блок памяти и скопировав туда существующий список. Дайте мне знать, если вы хотите, чтобы я опубликовал ответ в том же духе. 08.03.2015
  • Я думаю, что лучше всего вам переосмыслить свой подход и использовать массивы индексов вместо указателей. Однако имейте в виду, как деформация работает в графических процессорах Nvidia — если ваш код не требует вычислений (а ваш, похоже, таков), чтение памяти в режиме произвольного доступа значительно снизит пропускную способность вашей памяти. Поэтому максимально оптимизируйте свои структуры данных в соответствии с вашими вычислениями, чтобы вы могли считывать свои данные объединенным образом. 08.03.2015
  • njuffa Мне бы очень хотелось увидеть ваше решение. Спасибо всем за ваши комментарии. 08.03.2015

Ответы:


1

Просто взглянув на код, кажется, у вас есть фундаментальное заблуждение: есть память хоста, к которой нельзя получить доступ с устройства, и память устройства, к которой нельзя получить доступ с хоста. Таким образом, когда вы создаете узлы связанного списка в памяти устройства и копируете указатели обратно на хост, хост не может разыменовывать эти указатели, поскольку они указывают на память устройства.

Если вы действительно хотите передавать связанные списки туда и обратно между хостом и устройством, лучше всего скопировать записи в массив, выполнить memcpy, а затем скопировать массив обратно в связанный список. Можно сделать и другие вещи, в зависимости от вашего варианта использования.

(можно выделить область памяти доступную как с хоста так и с устройства, но с этим какая-то неуклюжесть и опыта использования у меня нет)

07.03.2015
Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..