Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes

Джерело:
Хабрахабр / Захабренные / Тематические / Посты

Дата публікації:
01/11/2025 13:20

Постійна адреса новини:
http://www.vsinovyny.com/12418399

Тонкости обновления драйверов NVIDIA в Yandex Managed Kubernetes

 

01/11/2025 13:20 // Хабрахабр / Захабренные / Тематические / Посты

Привет! Я Алиса, DevOps-инженер в KTS.

В этой статье я расскажу о том, как мы настроили автоматическое обновление драйверов NVIDIA для работы с Jupyter и ML-стеком в управляемом кластере.

Проблема: когда контейнеры и ML-библиотеки обновляются чаще, чем системные образы GPU-нод, версия драйвера быстро перестает соответствовать версии CUDA в контейнере. В итоге при вызове  nvidia-smi возвращает ошибку Driver/library version mismatch, а CUDA просто не видит драйвер на хосте.

Нам нужно было обновить Jupyter с ML-стеком, зависящим от CUDA. Как следствие, встал вопрос обновления драйверов NVIDIA на GPU-нодах. Можно было выполнять его руками на каждой ноде, но такой способ нам не подходил, и мы выбрали автоматизацию, которой и посвящена моя статья. Ниже я разберу и ручное обновление, и варианты автоматизации, а также объясню, как мы решали проблему конфликта GPU Operator с предустановленными драйверами.

Читать далее

 

» Читати повністю

 

« Наступна новина з архіву
На фоне слухов о возможном ударе по Венесуэле: США вывели два боевых корабля в Карибский бассейн
  Попередня новина з архіву
Scala Digest. Выпуск 34
»

 

 
© 2025 www.vsinovyny.com