Nano Hash - криптовалюты, майнинг, программирование

CUDA_ERROR_OUT_OF_MEMORY: недостаточно памяти на GPU

Информация о моем графическом процессоре приведена ниже.

+-----------------------------------------------------------------------------+                                      
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |                                      
|-------------------------------+----------------------+----------------------+                                       
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |                                        
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |                                         
|===============================+======================+======================|                                         
|   0  GeForce GTX 750 Ti  Off  | 00000000:01:00.0  On |                  N/A |                                          
| 34%   51C    P0     2W /  38W |   1909MiB /  1993MiB |      0%      Default |                                           
+-------------------------------+----------------------+----------------------+                                           

+-----------------------------------------------------------------------------+                                             
| Processes:                                                       GPU Memory |                                              
|  GPU       PID   Type   Process name                             Usage      |                                                
|=============================================================================|                                                
|    0      3492      C   python                                      1467MiB |                                                
|    0      7875      G   ...yCharm-C/ch-0/193.5233.109/jbr/bin/java     2MiB |                                                 
|    0     30812      G   /usr/lib/xorg/Xorg                           163MiB |                                                  
|    0     31133      G   kwin_x11                                      25MiB |                                                  
|    0     31137      G   /usr/bin/krunner                               1MiB |
|    0     31139      G   /usr/bin/plasmashell                          55MiB |
|    0     31536      G   ...uest-channel-token=13296030830960435903   176MiB |
+-----------------------------------------------------------------------------+

Когда я запускаю руководство по mnist здесь: https://www.tensorflow.org/tutorials/quickstart/beginner

Я получил такую ​​ошибку:

2019-12-10 00:27:06.891510: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1304] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 115 MB memory) -> physical GPU (device: 0, name: GeForce GTX 750 Ti, pci bus id: 0000:01:00.0, compute capability: 5.0)
2019-12-10 00:27:06.894510: I tensorflow/stream_executor/cuda/cuda_driver.cc:830] failed to allocate 115.56M (121176064 bytes) from device: CUDA_ERROR_OUT_OF_MEMORY: out of memory
2019-12-10 00:27:22.271281: F ./tensorflow/core/kernels/random_op_gpu.h:227] Non-OK-status: GpuLaunchKernel(FillPhiloxRandomKernelLaunch<Distribution>, num_blocks, block_size, 0, d.stream(), gen, data, size, dist) status: Internal: out of memory

Я использую TF-2 на Unbuntu. У меня 2 вопроса: 1) В моем Ubuntu 64 ГБ памяти, а в моем графическом процессоре около 2 ГБ. Когда он сообщил об ошибке «вне памяти», это связано с тем, что при обучении используется только память графического процессора, а не 64 ГБ?

2) Как решить эту ошибку нехватки памяти?


Ответы:


1

Да, при обучении используется память графического процессора, потому что вы передаете данные графическому процессору во время обучения.

Проблема в том, что на видеокарте, которую вы используете, очень мало видеопамяти. 2 ГБ видеопамяти недостаточно для глубокого обучения.

Я рекомендую вам использовать как минимум видеокарту с 6 ГБ видеопамяти.

Если переход на более качественное оборудование недоступен, вы можете выбрать AWS (Amazon Web Services) или Google Colab для использования видеокарт.

10.12.2019
  • Вы уверены, что для набора данных mnist требуется более 2 ГБ? Я новичок в этом и спасибо. Один из вариантов - переключиться с GPU на CPU? 10.12.2019
  • Это зависит от размера batch_size. Обратите внимание, что для компьютерного зрения вам потребуется много памяти ›= рекомендуется 6 ГБ. 10.12.2019
  • Да, для этой проблемы возможно только переключение MNIST с GPU на CPU; Однако я не рекомендую его на более длительный срок. 10.12.2019

  • 2

    Единственный способ решить эту проблему - НЕ использовать графический процессор, ваше обучение будет медленным, но, по крайней мере, оно будет работать.

    10.12.2019
    Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..