建立附加 GPU 的執行個體總覽 (original) (raw)

Linux Windows

本文概要說明建立 Compute Engine 執行個體並附加圖形處理器 (GPU) 的必要步驟。您可以使用 GPU 加速處理特定工作負載,例如機器學習和資料處理。

您也可以在 AI Hypercomputer 上使用部分 GPU 機器類型。AI Hypercomputer 是經過最佳化調整的超級運算系統,可支援人工智慧 (AI) 和機器學習 (ML) 工作負載。建議您使用這個選項建立高密度配置、效能最佳化的基礎架構,並整合 Google Kubernetes Engine (GKE) 和 Slurm 調度器。

如要進一步瞭解 Compute Engine 上的 GPU,請參閱「關於 GPU」一文。

選取 GPU 型號

如需可用 GPU 型號的清單,請參閱 GPU 平台。此外,請記下所選 GPU 型號支援的機型。

建議您也查看下列各項模型資訊:

限制

除了所有搭載 GPU 的執行個體限制外,每個附加 GPU 的機器系列都有下列限制:

A4X Max 執行個體

A4X 執行個體

A4 執行個體

A3 Ultra 執行個體

A3 Mega 執行個體

A3 High 執行個體

A3 Edge 執行個體

A2 Standard 執行個體

A2 Ultra 執行個體

G4 執行個體

G2 執行個體

N1+GPU 執行個體

如要瞭解搭載 GPU 的 N1 執行個體限制,請參閱 N1 機器系列的功能N1 機器系列的 GPU

選擇作業系統

如果您要使用 GPU 進行機器學習,請使用下列其中一種作業系統:

或者,您也可以使用公開或自訂映像檔。對於大多數公開映像檔自訂映像檔,您需要安裝 NVIDIA 驅動程式和 CUDA Toolkit。如要瞭解適合 GPU 型號的驅動程式,請參閱「安裝 GPU 驅動程式」。

查看 GPU 配額

為保護 Compute Engine 系統和使用者,新專案有全域 GPU 配額,這會限制您可在任何支援區域中建立的 GPU 總數。如要查看 GPU 配額,請參閱「GPU 配額」。

如果需要更多 GPU 配額,請參閱申請提高配額的相關說明。要求 GPU 配額時,您必須為要在各個地區建立的 GPU 類型要求配額,並依據所有區域中各類 GPU 的總數要求額外的全域配額。

如果您的專案已建立帳單記錄,那麼當您提交要求之後,專案就會自動獲得配額。

GPU 執行個體和先占分配配額

使用標準佈建模型的執行個體通常無法使用_先占分配配額_。先占配額適用於暫時性工作負載,通常較容易取得。如果專案沒有先占配額,且您從未要求配額,則專案中的所有執行個體都會消耗標準分配配額。

如果您要求搶占式分配配額,則使用標準佈建模型的執行個體必須符合下列所有條件,才能消耗搶占式分配配額:

為有時間限制的 GPU 工作負載使用先占分配量時,您可同時享有不間斷的執行時間,以及先占分配配額的高取得率。詳情請參閱「先佔配額」。

建立附加 GPU 的執行個體

如要建立附加 GPU 的執行個體,請完成下列步驟:

  1. 建立執行個體。建立執行個體的方法取決於要執行的工作負載。
    GPU 機器類型
    AI 和機器學習工作負載 圖形和視覺化 其他 GPU 工作負載
    加速器最佳化 A 系列機型專為高效能運算 (HPC)、人工智慧 (AI) 和機器學習 (ML) 工作負載設計。對於這些機器類型,系統會自動將 GPU 型號附加至執行個體。 加速器最佳化 G 系列機器類型專為 NVIDIA Omniverse 模擬工作負載、需要大量圖案的應用程式、影片轉碼和虛擬桌面等工作負載設計。這些機器類型支援 NVIDIA RTX 虛擬工作站 (vWS)。G 系列也可用於訓練較小的模型,以及單一主機推論。 對於這些機型,系統會自動將 GPU 型號附加至執行個體。 如要為不需要完整 GPU 的工作負載節省成本,您可以選擇附加少於一個 GPU 的 G4 機型。這些機器類型隨附 1/2、1/4 或 1/8 個標準 GPU。 對於 N1 一般用途機器類型 (N1 共用核心除外,即 f1-micro 和 g1-small),您可以附加特定 GPU 模型。其中部分 GPU 型號也支援 NVIDIA RTX 虛擬工作站 (vWS)。
    如要處理 AI、機器學習和 HPC 工作負載,請選擇下列其中一個選項: 如要建立 A4X Max (GB300)、A4X (GB200)、A4 (B200) 或 A3 Ultra (H200) 執行個體,請參閱 AI Hypercomputer 說明文件中的「部署方案總覽」。 如要建立連接 8 個 GPU 的 A3 (H100) 執行個體,請參閱「建立啟用 GPUDirect 的 A3 Mega、A3 High 或 A3 Edge 執行個體」。 如要建立 A3 (連接的 GPU 不超過 8 個) 或 A2 (A100) 執行個體,請參閱建立 A3 High 或 A2 執行個體 如要建立 G2 (L4) 或 G4 (RTX PRO 6000) 執行個體,請參閱建立 G2 或 G4 執行個體 如要建立附加 NVIDIA T4、P4、P100 或 V100 GPU 的 N1 執行個體,請參閱「建立附加 GPU 的 N1 執行個體」。
  2. 如要讓執行個體使用 GPU,您需要在執行個體上安裝 GPU 驅動程式。如果您已啟用 NVIDIA RTX 虛擬工作站 (舊稱 NVIDIA GRID),請安裝虛擬工作站的驅動程式

後續步驟