土田 裕登
RTX5090の運用設定

RTX5090の運用設定

2025.3.25

内容

- NVIDIA Driver のインストール

- インストール時の注意点

- 動作確認(nvidia-smi)

- Dockerなどのインストール

- NVIDIA Container Toolkit の導入

- Dockerのデフォルトランタイム設定(daemon.json)

- 最終確認


NVIDIA Driver のインストール

1) ドライバーの入手

NVIDIA公式サイトからLinux用ドライバーをダウンロードする 項目の設定はサイト上の案内に従う

  • 5090D や Notebook など、間違えやすい選択肢が多いので注意
  • ダウンロード先:
    • https://www.nvidia.com/ja-jp/drivers/

2) インストーラ実行

「ダウンロード」ディレクトリに移動後、以下の順にコマンドを実行する ※ バージョンによって .run の数字は変わるので適宜読み替えること

cd ~/Downloads
chmod 777 ./NVIDIA-Linux-x86_64-570.133.07.run
sudo ./NVIDIA-Linux-x86_64-570.133.07.run

3) 重要:ライセンス選択(MIT/GPL)

インストール中にライセンスやカーネルモジュールの選択画面が出た場合は、必ず「MIT/GPL」 を選択する

  • 別の選択肢を選ぶと、Ubuntu再起動時に起動できなくなる
  • 文鎮化した場合、Ubuntu 24.04 をUSBから再インストールするところからやり直し

4) 以降の選択肢

基本的に 「Continue installation」/「Yes」/「OK」 など肯定的な選択肢を選ぶ


5) インストール途中でフリーズする場合

インストール中にフリーズして操作できなくなることがある。

  • 対処:電源ボタン長押しで強制終了、または 5〜10分待つと再起動 する場合がある
  • 再起動後、もう一度同じインストールコマンドを実行して同様に進める
sudo ./NVIDIA-Linux-x86_64-570.133.07.run
  • 2回目以降はフリーズしないことが多い

6) 動作確認(nvidia-smi)

nvidia-smi でGPUが認識できていればOK

nvidia-smi
  • 出てこない場合:再起動後に反映されることもある

Dockerなどのインストール

1) セットアップスクリプトの実行

GitLabのセットアップスクリプトをcloneして実行する

  • リポジトリ(研究室内のみ):http://10.226.47.83:8080/tsuchida/gpu-setup-20.04
sudo apt-get update
sudo apt install git
git clone http://10.226.47.83:8080/tsuchida/gpu-setup-20.04
cd gpu-setup-20.04
sudo bash setup.sh
sudo reboot

NVIDIA Container Toolkit

nvidia-docker2 が非推奨になったため、nvidia-container-toolkit をインストールする

  • 参考:
    • https://effegma.com/how-to-install-nvidia-container-toolkit/

1) GPGキーの取得と保存

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

2) APTリポジトリリストをダウンロードして保存

curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

3) NVIDIA Container Toolkitをインストールし、Dockerを再起動

sudo apt update
sudo apt install nvidia-container-toolkit -y
systemctl restart docker.service

Dockerのデフォルトランタイムをnvidiaに変更

1) daemon.json を編集

以下ファイルに設定を追記(または上書き)する

sudo nano /etc/docker/daemon.json
cat /etc/docker/daemon.json

設定例:

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  },
  "exec-opts": ["native.cgroupdriver=cgroupfs"]
}

2) docker.serviceの再読み込み・ソケット権限調整

sudo systemctl reload docker.service
sudo chmod 666 /var/run/docker.sock

3) 最終確認(docker info)

Default Runtimenvidia が表示されていればOK

docker info | grep -i runtime