建立附加 GPU 的執行個體總覽 (original) (raw)

Linux Windows

本文概要說明建立 Compute Engine 執行個體並附加圖形處理器 (GPU) 的必要步驟。您可以使用 GPU 加速處理特定工作負載，例如機器學習和資料處理。

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是經過最佳化調整的超級運算系統，可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立高密度配置、效能最佳化的基礎架構，並整合 Google Kubernetes Engine (GKE) 和 Slurm 調度器。

如要進一步瞭解 Compute Engine 上的 GPU，請參閱「關於 GPU」一文。

選取 GPU 型號

如需可用 GPU 型號的清單，請參閱 GPU 平台。此外，請記下所選 GPU 型號支援的機型。

建議您也查看下列各項模型資訊：

支援的地區和區域。
請參閱 GPU 定價，瞭解在執行個體中使用各 GPU 型號的費用。如為使用加速器最佳化機器的執行個體，請一併查看 VM 執行個體定價。

限制

除了所有搭載 GPU 的執行個體限制外，每個附加 GPU 的機器系列都有下列限制：

A4X Max 執行個體

您只能要求使用支援的消耗選項的容量。
使用這類機型的執行個體無法享有續用折扣或彈性承諾使用折扣。
您只能在特定區域和可用區建立執行個體。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
這個機型僅適用於 NVIDIA Grace 平台。
A4X Max 不支援變更機型。如要切換至或切換出這個機型，您必須建立新的執行個體。
您無法在這個機型上執行 Windows 作業系統。如需支援的 Linux 作業系統清單，請參閱 GPU 執行個體支援的作業系統。
A4X Max 執行個體不支援下列項目：
2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟無法附加至 A4X Max 機器類型。

A4X 執行個體

您只能要求使用支援的消耗選項的容量。
使用這類機型的執行個體無法享有續用折扣或彈性承諾使用折扣。
您只能在特定區域和可用區建立執行個體。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
這個機型僅適用於 NVIDIA Grace 平台。
A4X 不支援變更機型。如要改用或停用這個機型，請建立新的執行個體。
您無法在這個機型上執行 Windows 作業系統。如需支援的 Linux 作業系統清單，請參閱 GPU 執行個體支援的作業系統。
如果是 A4X 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構，這是預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。
A4X 執行個體不支援下列項目：
2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟無法附加至 A4X 機器類型。

A4 執行個體

您只能使用 A4 機型的支援用量選項來要求容量。
使用 A4 機型的執行個體無法享有續用折扣和彈性承諾使用折扣。
A4 機型只能在特定區域和可用區使用。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
A4 機型僅適用於 Emerald Rapids CPU 平台。
您無法將執行個體的機型變更為 A4 機型，也無法從 A4 機型變更為其他機型。您必須使用這個機型建立新的執行個體。
A4 機器類型不支援單一租戶。
您無法在 A4 機型上執行 Windows 作業系統。
如果是 A4 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。這是使用 MRDMA 虛擬函式 (VF) 架構的執行個體預期會發生的行為。詳情請參閱「MRDMA functions and network monitoring tools」。
您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟連結至 A4 機器類型。

A3 Ultra 執行個體

您只能使用 A3 Ultra 機型支援的用量選項要求運算容量。
使用 A3 Ultra 機型的執行個體不適用續用折扣和彈性承諾使用折扣。
A3 Ultra 機型僅適用於特定區域和可用區。
您無法使用永久磁碟 (區域或可用區)。只能使用 Google Cloud Hyperdisk。
A3 Ultra 機型僅適用於 Emerald Rapids CPU 平台。
A3 Ultra 機型不支援變更機型。如要切換至或切換出這類機器，必須建立新的執行個體。
您無法在 A3 Ultra 機型上執行 Windows 作業系統。
A3 Ultra 機型不支援單一租戶。
如果是 A3 Ultra 執行個體，使用 ethtool -S 監控 GPU 網路時，結尾為 _phy 的實體連接埠計數器不會更新。如果執行個體使用 MRDMA 虛擬函式 (VF) 架構，這是預期行為。詳情請參閱「MRDMA functions and network monitoring tools」。

A3 Mega 執行個體

您只能透過 A3 Mega 機型支援的用量選項要求容量。
使用 A3 Mega 機型的執行個體無法享有續用折扣和彈性承諾使用折扣。
A3 Mega 機型只能在特定區域和可用區使用。
如果執行個體使用 A3 Mega 機型，就無法使用區域永久磁碟。
A3 Mega 機型僅適用於 Sapphire Rapids CPU 平台。
A3 Mega 機型不支援變更機器類型。如要切換至或切換出這類機器，必須建立新的執行個體。
您無法在 A3 Mega 機型上執行 Windows 作業系統。

A3 High 執行個體

您只能透過 A3 High 機型支援的用量選項要求容量。
使用 A3 High 機型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A3 High 機型。
您無法在採用 A3 High 機型的執行個體上使用區域永久磁碟。
A3 High 機型僅適用於 Sapphire Rapids CPU 平台。
A3 High 機型不支援變更機器類型。如要切換至或切換出這類機器，必須建立新的執行個體。
您無法在 A3 High 機型上執行 Windows 作業系統。
如要使用 a3-highgpu-1g、a3-highgpu-2g 和 a3-highgpu-4g 機器類型，請使用 Spot VM 或彈性啟動 VM 建立執行個體。如需這些選項的詳細操作說明，請參閱下列文章：
- 如要建立 Spot VM，請在建立加速器最佳化 VM 時，將佈建模式設為 SPOT。
- 如要建立彈性啟動 VM，請使用下列任一方法：
  * 建立獨立 VM，並在建立加速器最佳化 VM 時，將佈建模式設為 FLEX_START。
  * 在代管執行個體群組 (MIG) 中建立規模調整要求。如需操作說明，請參閱建立含 GPU VM 的 MIG。
您只能在有限的區域和可用區，搭配 a3-highgpu-1g 機型使用機密 VM，且在 A3 High 機型上執行機密 VM 的所有限制均適用。

A3 Edge 執行個體

您只能使用 A3 Edge 機型支援的計費方案要求容量。
使用 A3 Edge 機型執行個體時，您無法享有續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A3 Edge 機型。
使用 A3 Edge 機型的執行個體無法使用區域永久磁碟。
A3 Edge 機型僅適用於 Sapphire Rapids CPU 平台。
A3 Edge 機型不支援變更機型。如要切換至或切換出這類機器，必須建立新的執行個體。
您無法在 A3 Edge 機型上執行 Windows 作業系統。
A3 Edge 機型不支援單一租戶。

A2 Standard 執行個體

您只能透過 A2 Standard 標準機型支援的用量選項要求容量。
使用 A2 Standard 標準機型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A2 標準機型。
A2 Standard 標準機型僅適用於 Cascade Lake 平台。
如果執行個體使用 A2 標準機型，只能從一種 A2 標準機型切換至另一種 A2 標準機型。您無法變更為任何其他機型。詳情請參閱「修改加速器最佳化執行個體」。
您無法搭配使用 Windows 作業系統和 a2-megagpu-16g 機型。使用 Windows 作業系統時，請選擇其他 A2 Standard 機型。
在採用 A2 Standard 機型的 Windows 執行個體上，您無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD，請使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs，執行完整格式化。

A2 Ultra 執行個體

您只能透過 A2 Ultra 機型支援的用量選項要求容量。
使用 A2 Ultra 機型類型的執行個體不適用續用折扣和彈性承諾使用折扣。
您只能在特定區域和可用區使用 A2 Ultra 機型。
A2 Ultra 機型僅適用於 Cascade Lake 平台。
如果執行個體使用 A2 Ultra 機型，就無法變更機型。如要使用其他 A2 Ultra 機型或其他機型，請建立新的執行個體。
您無法將任何其他機型變更為 A2 Ultra 機型。如要使用 A2 Ultra 機型建立執行個體，請建立新的執行個體。
如果 Windows 執行個體使用 A2 Ultra 機器類型，您就無法快速格式化所連線的本機 SSD。如要格式化這些本機 SSD，請使用 diskpart 公用程式並指定 format fs=ntfs label=tmpfs，執行完整格式化。

G4 執行個體

您只能透過 G4 機型的支援用量選項要求容量。
使用 G4 機型的執行個體不適用續用折扣和彈性承諾使用折扣。
G4 機型只能在特定區域和可用區使用。
您無法在採用 G4 機型的執行個體上使用Persistent Disk (區域或可用區)。
G4 機型僅適用於 AMD EPYC Turin 第 5 代平台。
您無法建立使用 G4 機型的 Confidential VM 執行個體。
您無法在單一用戶群節點上建立 G4 執行個體。
g4-standard-384 執行個體無法使用 Windows 作業系統。
您無法將 2026 年 2 月 4 日前建立的 Hyperdisk ML 磁碟連結至 G4 機器類型。
建立連接少於一個 GPU 的 G4 執行個體 (部分 GPU) 時，請勿使用 --no-service-account 或 --no-scopes 標記。如要驗證 NVIDIA vGPU 驅動程式，Compute Engine 必須驗證 VM 的身分。這項程序需要啟用服務帳戶。

G2 執行個體

您只能透過 G2 機型支援的用量選項要求容量。
使用 G2 機型類型的執行個體不適用續用折扣和彈性承諾使用折扣。
G2 機型僅適用於特定區域和可用區。
G2 機型僅適用於 Cascade Lake 平台。
使用 G2 機型的執行個體不支援標準永久磁碟 (pd-standard)。如需支援的磁碟類型，請參閱「G2 支援的磁碟類型」。
您無法在採用 G2 機型的執行個體上建立多重執行個體 GPU。
如要變更 G2 執行個體的機型，請參閱「修改加速器最佳化執行個體」。
使用 G2 機型的執行個體無法使用深度學習 VM 映像檔做為開機磁碟。
Container-Optimized OS 目前的預設驅動程式不支援在 G2 機型上執行的 L4 GPU。此外，Container-Optimized OS 僅支援特定驅動程式集。如要在 G2 機器類型上使用 Container-Optimized OS，請參閱下列注意事項：
- 使用支援最低建議 NVIDIA 驅動程式版本 525.60.13 以上的 Container-Optimized OS 版本。詳情請參閱 Container-Optimized OS 版本資訊。
- 安裝驅動程式時，請指定適用於 L4 GPU 的最新版本。例如：sudo cos-extensions install gpu -- -version=525.60.13。
您必須使用 Google Cloud CLI 或 REST，才能在下列情境中建立 G2 執行個體：
- 您想指定自訂記憶體值。
- 您想自訂可見 CPU 核心數量。

N1+GPU 執行個體

如要瞭解搭載 GPU 的 N1 執行個體限制，請參閱 N1 機器系列的功能和 N1 機器系列的 GPU。

選擇作業系統

如果您要使用 GPU 進行機器學習，請使用下列其中一種作業系統：

_針對 AI 工作負載最佳化的映像檔。_您可以使用 Ubuntu 和 Rocky 映像檔，這些映像檔提供經過加速器最佳化的版本，且預先安裝 NVIDIA 驅動程式和 CUDA 工具包。請參閱 AI Hypercomputer 說明文件中的「OS 映像檔」。
_深度學習 VM 映像檔_。每個深度學習 VM 都具備 GPU 驅動程式安裝工具，並包含 TensorFlow 和 PyTorch 等套件。您也可以將深度學習 VM 用於一般 GPU 工作負載。如要進一步瞭解可用的映像檔，以及這些映像檔上安裝的套件，請參閱深度學習 VM 說明文件中的「選擇映像檔」。

或者，您也可以使用公開或自訂映像檔。對於大多數公開映像檔或自訂映像檔，您需要安裝 NVIDIA 驅動程式和 CUDA Toolkit。如要瞭解適合 GPU 型號的驅動程式，請參閱「安裝 GPU 驅動程式」。

查看 GPU 配額

為保護 Compute Engine 系統和使用者，新專案有全域 GPU 配額，這會限制您可在任何支援區域中建立的 GPU 總數。如要查看 GPU 配額，請參閱「GPU 配額」。

如果需要更多 GPU 配額，請參閱申請提高配額的相關說明。要求 GPU 配額時，您必須為要在各個地區建立的 GPU 類型要求配額，並依據所有區域中各類 GPU 的總數要求額外的全域配額。

如果您的專案已建立帳單記錄，那麼當您提交要求之後，專案就會自動獲得配額。

GPU 執行個體和先占分配配額

使用標準佈建模型的執行個體通常無法使用_先占分配配額_。先占配額適用於暫時性工作負載，通常較容易取得。如果專案沒有先占配額，且您從未要求配額，則專案中的所有執行個體都會消耗標準分配配額。

如果您要求搶占式分配配額，則使用標準佈建模型的執行個體必須符合下列所有條件，才能消耗搶占式分配配額：

執行個體已附加 GPU。
系統會透過 maxRunDuration 或 terminationTime 欄位，將執行個體設定為在預先定義的執行時間後自動刪除。詳情請參閱下列說明：
- 限制執行個體的執行時間
- 限制 MIG 中執行個體的執行時間
執行個體不得使用預留項目。詳情請參閱「禁止運算執行個體使用預留項目」。

為有時間限制的 GPU 工作負載使用先占分配量時，您可同時享有不間斷的執行時間，以及先占分配配額的高取得率。詳情請參閱「先佔配額」。

建立附加 GPU 的執行個體

如要建立附加 GPU 的執行個體，請完成下列步驟：

建立執行個體。建立執行個體的方法取決於要執行的工作負載。

GPU 機器類型
AI 和機器學習工作負載	圖形和視覺化	其他 GPU 工作負載
加速器最佳化 A 系列機型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。對於這些機器類型，系統會自動將 GPU 型號附加至執行個體。	加速器最佳化 G 系列機器類型專為 NVIDIA Omniverse 模擬工作負載、需要大量圖案的應用程式、影片轉碼和虛擬桌面等工作負載設計。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。G 系列也可用於訓練較小的模型，以及單一主機推論。對於這些機型，系統會自動將 GPU 型號附加至執行個體。如要為不需要完整 GPU 的工作負載節省成本，您可以選擇附加少於一個 GPU 的 G4 機型。這些機器類型隨附 1/2、1/4 或 1/8 個標準 GPU。	對於 N1 一般用途機器類型 (N1 共用核心除外，即 f1-micro 和 g1-small)，您可以附加特定 GPU 模型。其中部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。
如要處理 AI、機器學習和 HPC 工作負載，請選擇下列其中一個選項：如要建立 A4X Max (GB300)、A4X (GB200)、A4 (B200) 或 A3 Ultra (H200) 執行個體，請參閱 AI Hypercomputer 說明文件中的「部署方案總覽」。如要建立連接 8 個 GPU 的 A3 (H100) 執行個體，請參閱「建立啟用 GPUDirect 的 A3 Mega、A3 High 或 A3 Edge 執行個體」。如要建立 A3 (連接的 GPU 不超過 8 個) 或 A2 (A100) 執行個體，請參閱建立 A3 High 或 A2 執行個體。	如要建立 G2 (L4) 或 G4 (RTX PRO 6000) 執行個體，請參閱建立 G2 或 G4 執行個體。	如要建立附加 NVIDIA T4、P4、P100 或 V100 GPU 的 N1 執行個體，請參閱「建立附加 GPU 的 N1 執行個體」。

如要讓執行個體使用 GPU，您需要在執行個體上安裝 GPU 驅動程式。如果您已啟用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID)，請安裝虛擬工作站的驅動程式。

後續步驟

進一步瞭解 GPU 平台。
進一步瞭解使用 GPU 的功能和限制。
瞭解如何查看 GPU 的實際和預測用量。