La deduplicación de datos es una tecnología de almacenamiento popular que optimiza la capacidad de almacenamiento. Elimina los datos redundantes al eliminar los datos duplicados del conjunto de datos, dejando solo una copia. Como se muestra en la figura a continuación, esta tecnología puede reducir en gran medida la necesidad de espacio de almacenamiento físico para satisfacer la creciente demanda de almacenamiento de datos. La tecnología de deduplicación puede traer muchos beneficios prácticos, que incluyen principalmente los siguientes aspectos:
(1) | Cumplir con los requisitos de ROI (retorno de la inversión)/TCO (costo total de propiedad); |
(2) | El rápido crecimiento de los datos se puede controlar de forma eficaz; |
(3) | Aumente el espacio de almacenamiento efectivo y mejore la eficiencia del almacenamiento; |
(4) | Ahorre el costo total de almacenamiento y el costo de administración; |
(5) | Ahorrar el ancho de banda de la red de transmisión de datos; |
(6) | Ahorre costos de operación y mantenimiento como espacio, suministro de energía y refrigeración. |
La tecnología de deduplicación se utiliza ampliamente en sistemas de copia de seguridad y archivado de datos, ya que se generan muchos datos duplicados tras múltiples copias de seguridad, lo cual resulta muy adecuado. De hecho, la tecnología de deduplicación se puede utilizar en diversas situaciones, incluyendo datos en línea, datos near-line y sistemas de almacenamiento de datos fuera de línea. Se puede implementar en sistemas de archivos, administradores de volúmenes, NAS y SANS. La deduplicación también se puede utilizar para la recuperación ante desastres, la transmisión y sincronización de datos, ya que una tecnología de compresión de datos permite el empaquetado de datos. La tecnología de deduplicación puede ayudar a muchas aplicaciones a reducir el almacenamiento de datos, ahorrar ancho de banda de red, mejorar la eficiencia del almacenamiento, reducir la ventana de copia de seguridad y ahorrar costos.
La deduplicación tiene dos dimensiones principales: las tasas de deduplicación y el rendimiento. El rendimiento de la deduplicación depende de la tecnología de implementación específica, mientras que la tasa de deduplicación está determinada por las características de los datos en sí y los patrones de aplicación, como se muestra en la siguiente tabla. Los proveedores de almacenamiento informan actualmente tasas de deduplicación que van desde 20:1 a 500:1.
Alta tasa de deduplicación | Baja tasa de deduplicación |
Datos creados por el usuario | Datos del mundo natural |
Datos con baja tasa de cambio | Alta tasa de cambio de datos |
Datos de referencia, datos inactivos | Datos activos |
Aplicación con baja tasa de cambio de datos | Aplicación con alta tasa de cambio de datos |
Copia de seguridad completa de datos | Copia de seguridad incremental de datos |
Almacenamiento de datos a largo plazo | Almacenamiento de datos a corto plazo |
Amplia gama de aplicaciones de datos | Pequeña gama de aplicaciones de datos |
Procesamiento continuo de datos comerciales | Tratamiento general de datos comerciales |
Segmentación de datos pequeños | Segmentación de big data |
Segmentación de datos alargada | Segmentación de datos de longitud fija |
Contenido de datos percibido | Contenido de datos desconocido |
Desduplicación de datos de tiempo | Desduplicación de datos espaciales |
Puntos de implementación de deduplicación
Al desarrollar o aplicar la tecnología Dedupe se deben tener en cuenta varios factores, ya que estos afectan directamente su rendimiento y eficacia.
(1) | Qué | ¿Qué datos están desponderados? |
(2) | Cuando | ¿Cuando se eliminará el peso? |
(3) | Dónde | ¿Dónde está la eliminación de peso? |
(4) | Cómo | ¿Cómo reducir el peso? |
Tecnología de deduplicación de claves
El proceso de deduplicación del sistema de almacenamiento en general es el siguiente: primero que todo el archivo de datos se divide en un conjunto de datos, para cada bloque de datos para calcular la huella digital, y luego, basándose en las palabras clave de búsqueda de hash de la huella digital, la coincidencia indica los datos para los bloques de datos duplicados, solo almacena el número de índice del bloque de datos, de lo contrario significa que el bloque de datos es la única pieza de uno nuevo, almacenamiento del bloque de datos y creación de metainformación relevante. Por lo tanto, un archivo físico en el sistema de almacenamiento corresponde a una representación lógica de un conjunto de metadatos FP. Al leer el archivo, primero lea el archivo lógico, luego, de acuerdo con la secuencia FP, saque el bloque de datos correspondiente del sistema de almacenamiento, restaure la copia del archivo físico. Se puede ver en el proceso anterior que las tecnologías clave de Dedupe incluyen principalmente la segmentación de bloques de datos de archivos, el cálculo de huellas dactilares de bloques de datos y la recuperación de bloques de datos.
(1) Segmentación de bloques de datos de archivos
(2) Cálculo de huellas dactilares del bloque de datos
(3) Recuperación de bloques de datos
Para encontrar estos modelos recomendados para iniciar la deduplicación de paquetes de red:
Broker de paquetes de red (NPB) Mylinking™ ML-NPB-640048 SFP+ 10GE más 4 QSFP28 40GE/100GE, máx. 880 Gbps
Mylinking™ Broker de paquetes de red (NPB) ML-NPB-56606*40GE/100GE QSFP28 más 48*10GE/25GE SFP28, máx. 1,8 Tbps
Mylinking™ Broker de paquetes de red (NPB) ML-NPB-506048 SFP+ 10GE más 2 QSFP 40GE, máx. 560 Gbps
Mylinking™ Broker de paquetes de red (NPB) ML-NPB-486048*10GE SFP+, máx. 480 Gbps, función Plus
Broker de paquetes de red (NPB) Mylinking™ ML-NPB-481048*10GE SFP+, máx. 480 Gbps
Broker de paquetes de red (NPB) Mylinking™ ML-NPB-2410P24*10GE SFP+, máx. 240 Gbps, función DPI
Broker de paquetes de red (NPB) Mylinking™ ML-NPB-6400
48 SFP+ 10GE más 4 QSFP28 40GE/100GE, máx. 880 Gbps
Hora de publicación: 18 de octubre de 2022