редактировать: GTX 1070, Ubuntu 16.04, хэш git: 3b75eb34ea2c4982fb80843be089f02d430faade
Я переобучаю начальную модель на своих собственных данных. Все нормально до последней команды:
bazel-bin/inception/flowers_train \
--config=cuda \
--train_dir="${TRAIN_DIR}" \
--data_dir="${OUTPUT_DIRECTORY}" \
--pretrained_model_checkpoint_path="${MODEL_PATH}" \
--fine_tune=True \
--initial_learning_rate=0.001 \
--input_queue_memory_factor=1
Судя по логам, Tensorflow использует GPU:
I tensorflow/core/common_runtime/gpu/gpu_device.cc:951] Found device 0 with properties:
name: GeForce GTX 1070
major: 6 minor: 1 memoryClockRate (GHz) 1.7715
pciBusID 0000:03:00.0
Total memory: 7.92GiB
Free memory: 7.77GiB
I tensorflow/core/common_runtime/gpu/gpu_device.cc:972] DMA: 0
I tensorflow/core/common_runtime/gpu/gpu_device.cc:982] 0: Y
I tensorflow/core/common_runtime/gpu/gpu_device.cc:1041] Creating TensorFlow device (/gpu:0) -> (device: 0, name: GeForce GTX 1070, pci bus id: 0000:03:00.0)
Но когда я проверяю обучение в TensorBoard, сеть использует в основном процессор (синий /device:CPU:0, зеленый /device:GPU:0):
График TensorBoard:
Я пробовал две настройки TensorFlow:
Установка из исходников с драйверами nvidia-367, CUDA8 8.0, cuDNN v5, исходники с мастера (10.16.06 - r11?). скомпилировано для использования GPU:
bazel build -c opt --config=cuda //tensorflow/cc:tutorials_example_trainer bazel-bin/tensorflow/cc/tutorials_example_trainer --use_gpu bazel build -c opt --config=cuda //tensorflow/tools/pip_package:build_pip_package
образ графического процессора docker Tensorflow на ПК с GTX 1070 8Go
nvidia-docker run -it -p 8888:8888 -p 6006:6006 gcr.io/tensorflow/tensorflow:latest-gpu /bin/bash
Любая помощь ?
watch nvidia-smi
в данном случае это ненадежно. 10.10.2016