La deduplicación de datos es una tecnología de almacenamiento popular y popular que optimiza la capacidad de almacenamiento. Elimina datos redundantes al eliminar datos duplicados del conjunto de datos, dejando solo una copia. Como se muestra en la siguiente figura. Esta tecnología puede reducir en gran medida la necesidad de almacenamiento físico. espacio para satisfacer la creciente demanda de almacenamiento de datos. La tecnología de deduplicación puede aportar muchos beneficios prácticos, entre los que se incluyen principalmente los siguientes aspectos:
(1) | Cumplir con los requisitos de ROI (retorno de la inversión)/TCO (costo total de propiedad); |
(2) | El rápido crecimiento de los datos se puede controlar de forma eficaz; |
(3) | Aumentar el espacio de almacenamiento efectivo y mejorar la eficiencia del almacenamiento; |
(4) | Ahorre el costo total de almacenamiento y el costo de gestión; |
(5) | Guarde el ancho de banda de la red de transmisión de datos; |
(6) | Ahorre costos de operación y mantenimiento como espacio, suministro de energía y refrigeración. |
La tecnología de deduplicación se usa ampliamente en sistemas de archivo y respaldo de datos, porque hay muchos datos duplicados después de múltiples copias de seguridad, lo cual es muy adecuado para esta tecnología. De hecho, la tecnología de deduplicación se puede usar en muchas situaciones, incluidos datos en línea. datos near-line y sistemas de almacenamiento de datos fuera de línea. Se puede implementar en sistemas de archivos, administradores de volúmenes, NAS y sans. La dedupe también se puede usar para la recuperación de datos ante desastres, la transmisión y sincronización de datos, ya que se puede usar una tecnología de compresión de datos para el empaquetado de datos. almacenamiento de datos, ahorre ancho de banda de la red, mejore la eficiencia del almacenamiento, reduzca la ventana de respaldo y ahorre costos.
La deduplicación tiene dos dimensiones principales: índices de deduplicación y rendimiento. El rendimiento de la deduplicación depende de la tecnología de implementación específica, mientras que la tasa de deduplicación está determinada por las características de los datos en sí y los patrones de la aplicación, como se muestra en la siguiente tabla. Los proveedores de almacenamiento actualmente informan tasas de deduplicación que varían de 20:1 a 500:1.
Alta tasa de deduplicación | Baja tasa de deduplicación |
Datos creados por el usuario. | Datos del mundo natural. |
Baja tasa de cambio de datos | Alta tasa de cambio de datos |
Datos de referencia, datos inactivos | Datos activos |
Aplicación de baja tasa de cambio de datos | Aplicación de alta tasa de cambio de datos |
Copia de seguridad completa de los datos | Copia de seguridad de datos incremental |
Almacenamiento de datos a largo plazo | Almacenamiento de datos a corto plazo |
Amplia gama de aplicaciones de datos | Pequeña gama de aplicaciones de datos |
Procesamiento comercial continuo de datos. | Procesamiento comercial de datos generales. |
Pequeña segmentación de datos | Segmentación de big data |
Segmentación de datos alargada | Segmentación de datos de longitud fija |
Contenido de datos percibido | Contenido de datos desconocido |
Deduplicación de datos de tiempo | Deduplicación de datos espaciales |
Puntos de implementación de deduplicación
Se deben considerar varios factores al desarrollar o aplicar la tecnología Dedupe, ya que estos factores afectan directamente su rendimiento y eficacia.
(1) | Qué | ¿Qué datos se desponderan? |
(2) | Cuando | ¿Cuándo se eliminará el peso? |
(3) | Dónde | ¿Dónde está la eliminación de peso? |
(4) | Cómo | ¿Cómo reducir el peso? |
Tecnología clave de deduplicación
El proceso de deduplicación del sistema de almacenamiento en general es el siguiente: en primer lugar, el archivo de datos se divide en un conjunto de datos, para cada bloque de datos se calcula la huella digital y luego, según las palabras clave de búsqueda de Hash de huellas dactilares, la coincidencia indica los datos para el duplicado. Los bloques de datos, solo almacenan el número de índice del bloque de datos; de lo contrario, significa que el bloque de datos es la única pieza de un nuevo bloque de datos y crea metainformación relevante. Por lo tanto, un archivo físico en el sistema de almacenamiento corresponde a una representación lógica de un conjunto de metadatos de FP. Al leer el archivo, primero lea el archivo lógico, luego, de acuerdo con la secuencia FP, extraiga el bloque de datos correspondiente del sistema de almacenamiento y restaure la copia del archivo físico. Se puede ver en el proceso anterior que las tecnologías clave de Dedupe incluyen principalmente segmentación de bloques de datos de archivos, cálculo de huellas dactilares de bloques de datos y recuperación de bloques de datos.
(1) Segmentación de bloques de datos de archivos
(2) Cálculo de huellas dactilares del bloque de datos
(3) Recuperación de bloques de datos
Para encontrar estos modelos recomendados para iniciar su deduplicación de paquetes de red:
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-640048*10GE SFP+ más 4*40GE/100GE QSFP28, máximo 880Gbps
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-56606*40GE/100GE QSFP28 más 48*10GE/25GE SFP28, máximo 1,8Tbps
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-506048*10GE SFP+ más 2*40GE QSFP, máximo 560 Gbps
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-486048*10GE SFP+, máximo 480 Gbps, función Plus
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-481048*10GE SFP+, máximo 480 Gbps
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-2410P24*10GE SFP+, máx. 240 Gbps, función DPI
Agente de paquetes de red Mylinking™ (NPB) ML-NPB-6400
48*10GE SFP+ más 4*40GE/100GE QSFP28, máximo 880Gbps
Hora de publicación: 18 de octubre de 2022