Disponibilidad y durabilidad de los datos (original) (raw)

En esta página, se analizan conceptos relacionados con la disponibilidad y durabilidad de los datos en Cloud Storage, lo que incluye cómo Cloud Storage almacena datos de forma redundante, el comportamiento de replicación predeterminado para regiones dobles y múltiples, la función de replicación turbo para birregiones y la función de replicación entre buckets.

Conceptos clave

Cloud Storage está diseñado para tener una durabilidad anual del 99.999999999% (11 “nueves”).
- Para lograr esto, Cloud Storage usa la codificación de borrado y almacena fragmentos de datos de forma redundante en múltiples dispositivos ubicados en varias zonas de disponibilidad.
- Cloud Storage almacena de forma redundante los objetos que se escriben en al menos dos zonas de disponibilidad diferentes antes de considerar que la escritura se realizó de forma correcta.
- Las sumas de verificación se almacenan y se vuelven a validar de forma periódica para verificar de manera proactiva la integridad de los datos en reposo y detectar daños en los datos en tránsito. Si es necesario, las correcciones se realizan de forma automática con datos redundantes.
La disponibilidad mensual de los datos almacenados en Cloud Storage depende de la clase de almacenamiento de los datos y del tipo de ubicación del bucket. Para obtener más información, consulta las clases de almacenamiento disponibles.
Los objetos almacenados en un bucket de birregión o multirregión se almacenan de manera redundante en al menos dos lugares geográficos separados.
- En las regiones dobles, debes seleccionar las regiones específicas en las que se almacenan tus objetos.
- Cloud Storage determina los centros de datos específicos que se usan para almacenar tus datos según sea necesario, pero están ubicados dentro del límite geográfico de la multirregión, y están separados por al menos 100. millas. Esto proporciona redundancia entre regiones a un costo de almacenamiento más bajo que las regiones dobles.
- En el caso improbable de una interrupción en toda la región, como una causa por un desastre natural, los buckets birregionales y multirregionales permanecen disponibles, sin necesidad de cambiar las rutas de almacenamiento.
  Para obtener más información sobre las consideraciones específicas de la región, consulta Geografía y regiones.
Los objetos almacenados en buckets de región doble y múltiple suelen replicarse en lugares geográficos a través de la replicación predeterminada.
- Si uno de los lugares en los que se almacena un objeto deja de estar disponible después de que se sube de forma correcta, pero antes de que se replique en la segunda ubicación, la coherencia sólida de Cloud Storage garantiza que Las versiones inactivas del objeto no se entregarán y las reemplazos posteriores no se revertirán cuando la región vuelva a estar disponible.
- Los objetos almacenados en regiones dobles pueden usar la replicación turbo de forma opcional para lograr una replicación más rápida y predecible en todas las regiones.
Para lograr una redundancia entre una sincronización de región que no está disponible como una región doble, considera crear un bucket separado en cada región y usar las transferencias controladas por eventos o la replicación entre buckets del Servicio de transferencia de almacenamiento para mantener los buckets sincronizados.

Redundancia entre regiones

Si bien los modelos de almacenamiento tradicionales suelen depender de un enfoque activo/pasivo con ubicaciones geográficas “principales” y “secundarias”, las regiones dobles y multirregionales de Cloud Storage proporcionan una arquitectura de activo a activo basada en un solo bucket con redundancia entre regiones. Esto simplifica el proceso de recuperación ante desastres, ya que elimina la necesidad de que los usuarios repliquen datos de un bucket a otro o realicen una conmutación por error manual al bucket secundario en el caso de un tiempo de inactividad de la región principal.

Cloud Storage siempre comprende el estado actual de un bucket y entrega objetos con transparencia desde una región disponible, según sea necesario. Como resultado, los buckets de región doble y multirregionales están diseñados para tener un objetivo de tiempo de recuperación (RTO) de cero y las fallas regionales temporales suelen ser invisibles para usuarios, en el caso de una interrupción regional, los buckets birregionales y multirregionales continúan entregando de forma automática todos los datos que se replicaron en todas las regiones.

Sin embargo, la redundancia entre regiones ocurre de forma asíncrona y cualquier dato que no termine de replicarse entre regiones antes de que una región deje de estar disponible estará inaccesible hasta que la región inactiva vuelva a estar en línea. Es posible que los datos se pierdan en el caso poco probable de una destrucción física de la región.

La replicación predeterminada en Cloud Storage está diseñada para proporcionar redundancia en las regiones del 99.9% de los objetos recién escritos dentro de un objetivo de una hora y del 100% de los objetos recién escritos dentro de un objetivo de 12 horas. Los objetos recién escritos incluyen cargas, reescrituras, copias y composiciones.

Cloud Storage también ofrece una función de replicación entre buckets que se puede usar para replicar datos entre buckets independientes y satisfacer necesidades adicionales de replicación de datos que no se cumplen con las ubicaciones de regiones dobles o múltiples.

Replicación turbo

La replicación turbo proporciona una redundancia más rápida entre las regiones de los datos en tus buckets birregionales, lo que reduce el riesgo de exposición a la pérdida de datos y ayuda a permitir un servicio sin interrupciones después de una interrupción regional. Cuando está habilitada, la replicación turbo está diseñada para replicar el 100% de los objetos recién escritos en ambas regiones que constituyen la región doble dentro del objetivo de punto de recuperación de 15 minutos, sin importar el tamaño del objeto.

Ten en cuenta que, incluso para la replicación predeterminada, la mayoría de los objetos finalizan la replicación en minutos.

Si bien la redundancia entre regiones y la replicación turbo ayudan a admitir los esfuerzos de continuidad empresarial y recuperación ante desastres (BCDR), los administradores deben planificar y, luego, implementar una arquitectura completa de BCDR para su carga de trabajo.

Si deseas obtener más información, consulta la guía paso a paso para diseñar la recuperación ante desastres para aplicaciones en Google Cloud.

Limitaciones

La replicación turbo solo está disponible para buckets en regiones dobles.
La replicación turbo no se puede administrar a través de la API de XML, y tampoco se puede crear un bucket nuevo con la replicación turbo habilitada.
Cuando la replicación turbo está habilitada en un bucket, pueden pasar hasta 10 segundos antes de que comience a aplicarse a objetos recién escritos.
Las operaciones de escritura de objetos que comenzaron antes de habilitar la replicación turbo en un bucket se replican entre regiones con la tarifa de replicación predeterminada.
- La composición de objetos que usa cualquier objeto de origen escrito con la replicación predeterminada en las últimas 12 horas crea un objeto compuesto que también usa la replicación predeterminada.

Replicación entre buckets

En algunos casos, es posible que desees mantener una copia de tus datos en un segundo bucket. La replicación entre buckets copia objetos nuevos y actualizados de forma asíncrona de un bucket de origen a uno de destino.

La replicación entre buckets difiere de la replicación predeterminada y la replicación turbo en que tus datos existen en dos buckets independientes, cada uno con su propia configuración, como la ubicación de almacenamiento, la encriptación, el acceso y la clase de almacenamiento. Es especialmente adecuado para lo siguiente:

Soberanía de los datos: Mantén los datos en regiones geográficamente distantes.
Mantén versiones de desarrollo y producción separadas: Crea buckets y espacios de nombres distintos para que el desarrollo no afecte tu carga de trabajo de producción.
Compartir datos: Replica los datos en un bucket que pertenece a un proveedor o socio.
Agregación de datos: Combina datos de diferentes buckets en uno solo para ejecutar cargas de trabajo de análisis.
Administra el costo, la seguridad y el cumplimiento: Mantén tus datos con diferentes propiedades, clases de almacenamiento y períodos de retención.

La replicación entre buckets usa el Servicio de transferencia de almacenamiento para replicar objetos y Pub/Sub para recibir alertas sobre cambios en los buckets de origen y destino. Puedes habilitar la replicación entre buckets en los buckets nuevos que crees y en los existentes.

En el caso de los buckets en los que la tasa de cambio de objetos es inferior a 3,000 por segundo y los objetos son inferiores a un GiB, la replicación entre buckets suele tardar entre minutos y decenas de minutos, pero no se admite un límite superior específico. Además, es posible que los buckets que experimenten tasas de cambio más altas o que tengan objetos más grandes vean demoras de replicación más altas.

Para obtener instrucciones sobre el uso de la replicación entre buckets, consulta Cómo usar la replicación entre buckets.

Limitaciones

Las eliminaciones de objetos en el bucket de origen no se replican en el bucket de destino.
Las configuraciones del ciclo de vida de los objetos no se replican.
Cuando se replican los objetos, los metadatos de marca de tiempo (por ejemplo, timeCreated y timeUpdated) no se conservan. Consulta Transferencias entre buckets de Cloud Storage para obtener detalles sobre la preservación de metadatos.
Debido a que la replicación entre buckets se puede usar para replicar datos entre buckets ubicados en cualquier Google Cloud ubicación, el rendimiento de la replicación entre buckets varía según las ubicaciones seleccionadas. Por lo tanto, la replicación entre buckets no ofrece un objetivo de punto de recuperación (RPO).

Supervisión del rendimiento

Cloud Storage supervisa los objetos no replicados más antiguos en buckets de regiones dobles y múltiples con la replicación predeterminada o la replicación turbo. Si un objeto permanece sin replicar por más tiempo que el RPO (objetivo de punto de recuperación), se considera que está fuera del RPO. Cada minuto en el que uno o más objetos están fuera del RPO, se cuenta como un minuto “malo”.

Por ejemplo, si un objeto produjo 20 minutos malos de 9:00 a 9:20 a.m., y otro genera 10 minutos malos de 9:15 a 9:25 a.m., hay dos objetos para el mes que no están en el RPO. La cantidad total de minutos malos del mes es de 25 minutos, ya que de 9:00 a.m. a 9:25 a.m. hubo al menos un objeto al que le faltaba su RPO.

En el caso de los buckets que usan replicación turbo, el RPO para objetos es de 15 minutos.
En el caso de los buckets que usan la replicación predeterminada, el RPO para los objetos es de 12 horas.
- En los buckets que usan la replicación predeterminada, los objetos suelen replicarse en una hora o menos.
La replicación entre buckets no proporciona un RPO.

En la Google Cloud consola, el gráfico Porcentaje de minutos fuera de RPO te permite supervisar el porcentaje de minutos malos durante los últimos 30 días de tu bucket cuando usas la replicación predeterminada o la replicación turbo en buckets birregionales o multirregionales. Este indicador de nivel de servicio se puede usar para supervisar la conformidad del tiempo de replicación mensual de tu bucket. De manera similar, el porcentaje de objetos fuera del objetivo realiza un seguimiento de las replicaciones de objetos que no ocurrieron dentro del RPO. Este indicador de nivel de servicio se puede usar para supervisar la conformidad del volumen de replicación mensual del bucket. Para obtener más información, consultaSupervisión de Cloud Storage y ANS de Cloud Storage.

Próximos pasos

Habilita la replicación turbo en un bucket de región doble existente.
Más información sobre los precios de la replicación turbo.
Traslada datos a un bucket diferente en una ubicación nueva.