Примеры CUDA SDK вызывают различные ошибки в системе с несколькими gpu

у меня есть Dell Precision Rack под управлением Ubuntu Precise и с двумя Tesla C2075 плюс Quadro 600, который является устройством отображения. Недавно я закончил некоторые тесты на своем настольном компьютере и теперь попытался перенести материал на рабочую станцию.

так как CUDA не было, я установил его в соответствии с данное руководство и адаптировал файлы Makefile SDK в соответствии с этого предложения.

то, с чем я сейчас сталкиваюсь, - это не один образец (я сделал тест как 10 разных) работает. Это ошибки, которые я получаю:


[deviceQuery] starting...

./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 10
-> invalid device ordinal
[deviceQuery] test results...
FAILED

> exiting in 3 seconds: 3...2...1...done!

[MonteCarloMultiGPU] starting...

CUDA error at MonteCarloMultiGPU.cpp:235 code=23510 (cudaErrorInvalidDevice) "cudaGetDeviceCount(&GPU_N)"MonteCarloMultiGPU
==================
Parallelization method  = threaded
Problem scaling         = weak
Number of GPUs          = 0
Total number of options = 0
Number of paths         = 262144
main(): generating input data...
main(): starting 0 host threads...
Floating point exception (core dumped)

[reduction] starting...

reduction.cpp(124) : cudaSafeCallNoSync() Runtime API error 10 : invalid device ordinal.

[simplePrintf] starting...

simplePrintf.cu(193) : CUDA Runtime API error 10: invalid device ordinal.

как вы можете видеть, большинство ошибок указывают на проблему с вызовом cudaGetDeviceCount, который возвращает код ошибки 10. В соответствии с руководством проблема:

cudaErrorInvalidDevice: This indicates that the device ordinal supplied by the user does not correspond to a valid CUDA device.

к сожалению, единственное решение, которое я смог найти, предложило проверить вилки питания устройств. Я сделал это и было в этом нет ничего плохого. Перезагрузка станции не помогает.

Я был бы рад предоставить более подробную информацию о моей конфигурации. Просто оставьте комментарий!

1 ответов


из-за комментариев к моему первоначальному вопросу я смог найти решение. Я следовал данное руководство чтобы узнать, как настроить rc.local правильно (не забудьте chmod ваш скрипт).