Джерело:
Хабрахабр / Захабренные / Тематические / Посты
Дата публікації:
01/11/2025 13:20
Постійна адреса новини:
http://www.vsinovyny.com/12418399
01/11/2025 13:20 // Хабрахабр / Захабренные / Тематические / Посты

Привет! Я Алиса, DevOps-инженер в KTS.
В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере.
Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте.
Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты автоматизации, а также объясню, как мы решали проблему конфликта GPU Operator с предустановленными драйверами.
Читать далее| « |
Наступна новина з архіву На фоне слухов о возможном ударе по Венесуэле: США вывели два боевых корабля в Карибский бассейн |
Попередня новина з архіву Scala Digest. Выпуск 34 |
» | |
|
|
||||