¿Cuál es la tecnología y la solución de enmascaramiento de datos en Network Packet Broker?

1. El concepto de enmascaramiento de datos

El enmascaramiento de datos también se conoce como enmascaramiento de datos. Es un método técnico para convertir, modificar o cubrir datos confidenciales como números de teléfono móvil, números de tarjetas bancarias y otra información cuando hemos proporcionado reglas y políticas de enmascaramiento. Esta técnica se utiliza principalmente para evitar que datos confidenciales se utilicen directamente en entornos no confiables.

Principio de enmascaramiento de datos: el enmascaramiento de datos debe mantener las características de los datos originales, las reglas comerciales y la relevancia de los datos para garantizar que el desarrollo, las pruebas y el análisis de datos posteriores no se vean afectados por el enmascaramiento. Garantice la coherencia y validez de los datos antes y después del enmascaramiento.

2. Clasificación de enmascaramiento de datos

El enmascaramiento de datos se puede dividir en enmascaramiento de datos estáticos (SDM) y enmascaramiento de datos dinámicos (DDM).

Enmascaramiento de datos estáticos (SDM): El enmascaramiento de datos estáticos requiere el establecimiento de una nueva base de datos en un entorno no productivo para aislarla del entorno de producción. Los datos confidenciales se extraen de la base de datos de producción y luego se almacenan en la base de datos de no producción. De esta manera, los datos insensibilizados se aíslan del entorno de producción, lo que satisface las necesidades comerciales y garantiza la seguridad de los datos de producción.

SDM

Enmascaramiento de datos dinámicos (DDM): Generalmente se utiliza en el entorno de producción para desensibilizar datos confidenciales en tiempo real. A veces, se requieren diferentes niveles de enmascaramiento para leer los mismos datos confidenciales en diferentes situaciones. Por ejemplo, diferentes roles y permisos pueden implementar diferentes esquemas de enmascaramiento.

DDM

Aplicación de enmascaramiento de productos de datos y generación de informes de datos

Dichos escenarios incluyen principalmente productos de monitoreo de datos internos o vallas publicitarias, productos de datos de servicios externos e informes basados ​​​​en análisis de datos, como informes comerciales y revisión de proyectos.

enmascaramiento del producto de informes de datos

3. Solución de enmascaramiento de datos

Los esquemas de enmascaramiento de datos comunes incluyen: invalidación, valor aleatorio, reemplazo de datos, cifrado simétrico, valor promedio, compensación y redondeo, etc.

Invalidación: La invalidación se refiere al cifrado, truncamiento u ocultación de datos confidenciales. Este esquema suele sustituir los datos reales por símbolos especiales (como *). La operación es simple, pero los usuarios no pueden conocer el formato de los datos originales, lo que puede afectar las aplicaciones de datos posteriores.

Valor aleatorio: El valor aleatorio se refiere al reemplazo aleatorio de datos confidenciales (los números reemplazan a los dígitos, las letras reemplazan a las letras y los caracteres reemplazan a los caracteres). Este método de enmascaramiento garantizará el formato de los datos confidenciales hasta cierto punto y facilitará la aplicación posterior de los datos. Es posible que se necesiten diccionarios de enmascaramiento para algunas palabras significativas, como nombres de personas y lugares.

Reemplazo de datos: El reemplazo de datos es similar al enmascaramiento de valores nulos y aleatorios, excepto que en lugar de usar caracteres especiales o valores aleatorios, los datos enmascarados se reemplazan con un valor específico.

Cifrado simétrico: El cifrado simétrico es un método de enmascaramiento reversible especial. Cifra datos confidenciales mediante claves y algoritmos de cifrado. El formato del texto cifrado es coherente con los datos originales en reglas lógicas.

Promedio: El esquema promedio se utiliza a menudo en escenarios estadísticos. Para los datos numéricos, primero calculamos su media y luego distribuimos aleatoriamente los valores insensibilizados alrededor de la media, manteniendo así constante la suma de los datos.

Compensación y redondeo: Este método cambia los datos digitales mediante desplazamiento aleatorio. El redondeo de compensación garantiza la autenticidad aproximada del rango manteniendo la seguridad de los datos, que está más cerca de los datos reales que los esquemas anteriores y tiene una gran importancia en el escenario del análisis de big data.

ML-NPB-5660-数据脱敏

El modelo recomendado "ML-NPB-5660" para el enmascaramiento de datos

4. Técnicas de enmascaramiento de datos de uso común

(1). Técnicas estadísticas

Muestreo de datos y agregación de datos.

- Muestreo de datos: el análisis y la evaluación del conjunto de datos original mediante la selección de un subconjunto representativo del conjunto de datos es un método importante para mejorar la eficacia de las técnicas de desidentificación.

- Agregación de datos: como conjunto de técnicas estadísticas (como suma, conteo, promedio, máximo y mínimo) aplicadas a atributos en microdatos, el resultado es representativo de todos los registros en el conjunto de datos original.

(2). Criptografía

La criptografía es un método común para desensibilizar o mejorar la eficacia de la desensibilización. Los diferentes tipos de algoritmos de cifrado pueden lograr diferentes efectos de desensibilización.

- Cifrado determinista: Un cifrado simétrico no aleatorio. Por lo general, procesa datos de identificación y puede descifrar y restaurar el texto cifrado a la identificación original cuando sea necesario, pero la clave debe estar protegida adecuadamente.

- Cifrado irreversible: la función hash se utiliza para procesar datos, que generalmente se usa para datos de identificación. No se puede descifrar directamente y se debe guardar la relación de mapeo. Además, debido a las características de la función hash, pueden producirse colisiones de datos.

- Cifrado homomórfico: Se utiliza el algoritmo homomórfico de texto cifrado. Su característica es que el resultado de la operación de texto cifrado es el mismo que el de la operación de texto sin formato después del descifrado. Por lo tanto, se usa comúnmente para procesar campos numéricos, pero no se usa mucho por razones de rendimiento.

(3). Tecnología del sistema

La tecnología de supresión elimina o protege los elementos de datos que no cumplen con la protección de la privacidad, pero no los publica.

- Enmascaramiento: se refiere al método de desensibilización más común para enmascarar el valor del atributo, como el número del oponente, la tarjeta de identificación se marca con un asterisco o la dirección se trunca.

- Supresión local: se refiere al proceso de eliminar valores de atributos específicos (columnas), eliminando campos de datos no esenciales;

- Supresión de registros: se refiere al proceso de eliminación de registros específicos (filas), eliminando registros de datos no esenciales.

(4). Tecnología de seudónimo

Pseudomanning es una técnica de desidentificación que utiliza un seudónimo para reemplazar un identificador directo (u otro identificador sensible). Las técnicas de seudónimos crean identificadores únicos para cada sujeto de información individual, en lugar de identificadores directos o confidenciales.

- Puede generar valores aleatorios de forma independiente para corresponder a la ID original, guardar la tabla de mapeo y controlar estrictamente el acceso a la tabla de mapeo.

- También puede utilizar el cifrado para generar seudónimos, pero debe conservar la clave de descifrado correctamente;

Esta tecnología se usa ampliamente en el caso de una gran cantidad de usuarios de datos independientes, como OpenID en el escenario de plataforma abierta, donde diferentes desarrolladores obtienen diferentes OpenIDs para el mismo usuario.

(5). Técnicas de generalización

La técnica de generalización se refiere a una técnica de desidentificación que reduce la granularidad de los atributos seleccionados en un conjunto de datos y proporciona una descripción más general y abstracta de los datos. La tecnología de generalización es fácil de implementar y puede proteger la autenticidad de los datos a nivel de registro. Se utiliza comúnmente en productos de datos o informes de datos.

- Redondeo: implica seleccionar una base de redondeo para el atributo seleccionado, como análisis forense hacia arriba o hacia abajo, lo que arroja resultados de 100, 500, 1K y 10K.

- Técnicas de codificación superior e inferior: reemplace los valores por encima (o por debajo) del umbral con un umbral que represente el nivel superior (o inferior), lo que producirá un resultado de "por encima de X" o "por debajo de X".

(6). Técnicas de aleatorización

Como una especie de técnica de desidentificación, la tecnología de aleatorización se refiere a modificar el valor de un atributo mediante la aleatorización, de modo que el valor después de la aleatorización sea diferente del valor real original. Este proceso reduce la capacidad de un atacante para derivar un valor de atributo a partir de otros valores de atributo en el mismo registro de datos, pero afecta la autenticidad de los datos resultantes, lo cual es común con los datos de prueba de producción.


Hora de publicación: 27 de septiembre de 2022