Rapid Bucket (original) (raw)

Esta página descreve o Rapid Bucket, um recurso que permite armazenar objetos na classe de armazenamento Rapid definindo uma zona como local de um bucket. Essa abordagem permite que você coloque o armazenamento de dados junto aos recursos de computação, o que oferece latência significativamente menor e maior capacidade de processamento em comparação com outras classes de armazenamento no Cloud Storage. As cargas de trabalho em outras zonas e regiões também podem acessar o bucket, com desempenho relativo à distância da rede.

Para criar um bucket zonal usando o Rapid Bucket, consulte Criar buckets zonais. É possível conferir a lista de locais compatíveis em Zonas. Para ler e anexar objetos em buckets zonais, consulte Usar objetos em buckets zonais.

Benefícios

O Rapid Bucket foi criado para remover gargalos de armazenamento e é ideal para aplicativos com uso intensivo de dados, como IA/ML e análise de dados. O Rapid Bucket oferece latência abaixo de um milissegundo, capacidade de processamento agregada de até 15 TB/s e 20 milhões de consultas por segundo (QPS). A latência ultrabaixa permite a recuperação instantânea de dados e capacita aplicativos de inferência em tempo real a serem executados em escala. A capacidade de processamento massiva e o QPS alto ajudam a manter seus clusters de GPU caros totalmente saturados, reduzindo drasticamente os tempos de treinamento de modelo.

Terminologia do Rapid Bucket

A documentação do Cloud Storage usa os seguintes termos:

Recursos de buckets zonais

Além de fornecer baixa latência e alta capacidade de processamento, os buckets zonais permitem que você faça o seguinte:

Casos de uso

O Rapid Bucket é mais adequado para cargas de trabalho de IA/ML ou outras cargas de trabalho com uso intensivo de dados. Alguns exemplos dessas cargas de trabalho são checkpointing, avaliação e disponibilização de modelos, além de filas de registro e mensagens. Ele também pode ser usado para transmitir dados ou fornecer armazenamento para bancos de dados.

Para aproveitar ao máximo a baixa latência e a alta capacidade de processamento fornecidas pelo Rapid Bucket, certifique-se de ativar a conectividade direta do gRPC.

Acesso a objetos em buckets zonais

Para aproveitar os benefícios de desempenho de um bucket zonal, abra objetos para streaming e mantenha um fluxo de dados ao realizar operações nos objetos. Ao estabelecer e manter um fluxo de dados, é possível realizar operações de leitura ou gravação subsequentes no objeto com latência muito baixa. Por exemplo, ao ler um arquivo Parquet, é possível realizar a leitura inicial dos metadados do arquivo (o rodapé) e a leitura subsequente de linhas específicas em uma única solicitação. Essa abordagem é mais eficiente do que usar solicitações separadas para cada etapa.

Depois de estabelecidos, os fluxos de objetos são mantidos abertos por padrão quando você acessa objetos de bucket zonal usando Cloud Storage FUSE ou as bibliotecas de cliente do Cloud Storage.

É possível abrir vários fluxos de leitura para um objeto de qualquer número de hosts. Não há limitação no número de fluxos de leitura que podem ser estabelecidos para um objeto.

Anexação de objetos

É possível anexar dados a objetos em buckets zonais. Quando você faz anexos a objetos, a seguinte semântica é aplicada:

Finalização de objetos

Depois que um objeto é finalizado, não é mais possível anexar a ele, mas ainda é possível substituir o objeto por uma nova versão. Os metadados de um objeto finalizado ainda são mutáveis. Por exemplo, novas tags podem ser adicionadas e o objeto pode ser renomeado.

Como ativar buckets zonais

É possível ativar e acessar buckets zonais usandoo Cloud Storage FUSE ou o driver CSI do Cloud Storage FUSE. Use a versão 3.7.2 ou mais recente do Cloud Storage FUSE. Para usar o driver CSI do Cloud Storage FUSE, verifique se a versão do Google Kubernetes Engine é 1.35.0-gke.3047001 ou mais recente.

Preços

O uso do Rapid Bucket gera cobranças de armazenamento de dados, operações e rede. Para mais informações, consulte Preços.

Limitações

Incompatibilidades

Os buckets zonais são incompatíveis com as seguintes ferramentas, produtos e serviços:

Cotas

Cada zona por projeto tem uma cota de capacidade de armazenamento padrão. Cada zona por projeto também tem uma cota de saída padrão do Cloud Storage para Google serviços. Para conferir essas cotas, consulte Cotas e limites.

Para saber como monitorar o uso da saída de dados e solicitar mais largura de banda, consulte Monitoramento do uso da largura de banda.

Práticas recomendadas

Para otimizar o desempenho ao usar buckets zonais com o Cloud Storage FUSE, mantenha um identificador de arquivo aberto para os objetos ativados e use-o para várias operações. Isso resulta em um desempenho melhor porque permite que o Cloud Storage FUSE evite a execução de viagens de ida e volta de rede desnecessárias por leitura repetida.

A seguir