チュートリアル (original) (raw)
大規模言語モデル
- v6e での JetStream MaxText 推論 v6e での推論用に MaxText で JetStream を設定して使用するためのガイド。
- v6e での JetStream PyTorch 推論 v6e での推論用に PyTorch で JetStream を設定して使用するためのガイド。
- v6e での vLLM 推論 v6e での推論用に vLLM を設定して使用するためのガイド。
- GKE で vLLM を実行して TPU を使用して LLM をサービングする vLLM を使用して Google Kubernetes Engine(GKE)で Tensor Processing Unit(TPU)を使用して大規模言語モデル(LLM)をサービングするためのガイド。