1. El concepto de enmascaramiento de datos
El enmascaramiento de datos también se conoce como enmascaramiento de datos. Es un método técnico para convertir, modificar o cubrir datos confidenciales, como el número de teléfono móvil, el número de tarjeta bancaria y otra información cuando hemos otorgado reglas y políticas de enmascaramiento. Esta técnica se utiliza principalmente para evitar que los datos confidenciales se utilicen directamente en entornos poco confiables.
Principio de enmascaramiento de datos: el enmascaramiento de datos debe mantener las características de los datos originales, las reglas comerciales y la relevancia de los datos para garantizar que el desarrollo posterior, las pruebas y el análisis de datos no se vea afectado por el enmascaramiento. Asegure la consistencia y la validez de los datos antes y después del enmascaramiento.
2. Clasificación de enmascaramiento de datos
El enmascaramiento de datos se puede dividir en el enmascaramiento de datos estáticos (SDM) y el enmascaramiento de datos dinámicos (DDM).
Enmascaramiento de datos estáticos (SDM): El enmascaramiento de datos estáticos requiere el establecimiento de una nueva base de datos de entorno de no producción para el aislamiento del entorno de producción. Los datos confidenciales se extraen de la base de datos de producción y luego se almacenan en la base de datos de no producción. De esta manera, los datos desensibilizados se aislan del entorno de producción, que satisface las necesidades comerciales y garantiza la seguridad de los datos de producción.
Enmascaramiento de datos dinámicos (DDM): Generalmente se usa en el entorno de producción para desensibilizar datos confidenciales en tiempo real. A veces, se requieren diferentes niveles de enmascaramiento para leer los mismos datos confidenciales en diferentes situaciones. Por ejemplo, diferentes roles y permisos pueden implementar diferentes esquemas de enmascaramiento.
Informes de datos y aplicación de enmascaramiento de productos de datos
Dichos escenarios incluyen principalmente productos internos de monitoreo de datos o cartelera, productos de datos de servicios externos e informes basados en el análisis de datos, como informes comerciales y revisión del proyecto.
3. Solución de enmascaramiento de datos
Los esquemas de enmascaramiento de datos comunes incluyen: invalidación, valor aleatorio, reemplazo de datos, cifrado simétrico, valor promedio, compensación y redondeo, etc.
Invalidación: La invalidación se refiere al cifrado, truncamiento o ocultación de datos confidenciales. Este esquema generalmente reemplaza los datos reales con símbolos especiales (como *). La operación es simple, pero los usuarios no pueden conocer el formato de los datos originales, lo que puede afectar las aplicaciones de datos posteriores.
Valor aleatorio: El valor aleatorio se refiere al reemplazo aleatorio de datos confidenciales (los números reemplazan los dígitos, las letras reemplazan las letras y los caracteres reemplazan los caracteres). Este método de enmascaramiento garantizará el formato de datos confidenciales en cierta medida y facilitará la aplicación de datos posterior. Es posible que se necesiten diccionarios de enmascaramiento para algunas palabras significativas, como nombres de personas y lugares.
Reemplazo de datos: El reemplazo de datos es similar al enmascaramiento de valores nulos y aleatorios, excepto que en lugar de usar caracteres especiales o valores aleatorios, los datos de enmascaramiento se reemplazan con un valor específico.
Cifrado simétrico: El cifrado simétrico es un método especial de enmascaramiento reversible. Cifra datos confidenciales a través de claves de cifrado y algoritmos. El formato de texto cifrado es consistente con los datos originales en reglas lógicas.
Promedio: El esquema promedio a menudo se usa en escenarios estadísticos. Para los datos numéricos, primero calculamos su media y luego distribuimos aleatoriamente los valores desensibilizados alrededor de la media, manteniendo así constante la suma de los datos.
Compensación y redondeo: Este método cambia los datos digitales por cambio aleatorio. El redondeo compensado garantiza la autenticidad aproximada del rango mientras se mantiene la seguridad de los datos, que está más cerca de los datos reales que los esquemas anteriores, y tiene una gran importancia en el escenario del análisis de big data.
El modelo recomendado "ML-NPB-5660"Para el enmascaramiento de datos
4. Técnicas de enmascaramiento de datos comúnmente utilizadas
(1). Técnicas estadísticas
Muestreo de datos y agregación de datos
- Muestreo de datos: el análisis y la evaluación del conjunto de datos original seleccionando un subconjunto representativo del conjunto de datos es un método importante para mejorar la efectividad de las técnicas de desidentificación.
- Agregación de datos: como una colección de técnicas estadísticas (como suma, contabilidad, promedio, máximo y mínimo) aplicado a los atributos en microdatos, el resultado es representativo de todos los registros en el conjunto de datos original.
(2). Criptografía
La criptografía es un método común para desensibilizar o mejorar la efectividad de la desensibilización. Los diferentes tipos de algoritmos de cifrado pueden lograr diferentes efectos de desensibilización.
- Cifrado determinista: un cifrado simétrico no aleatorio. Por lo general, procesa los datos de identificación y puede descifrar y restaurar el texto cifrado al ID original cuando sea necesario, pero la clave debe protegerse correctamente.
- Cifrado irreversible: la función hash se utiliza para procesar datos, que generalmente se usan para datos de identificación. No se puede descifrar directamente y la relación de mapeo debe salvarse. Además, debido a la característica de la función hash, puede ocurrir la colisión de datos.
- Cifrado homomórfico: se utiliza el algoritmo homomórfico cifrado. Su característica es que el resultado de la operación de texto cifrado es el mismo que el de la operación de texto sin formato después del descifrado. Por lo tanto, se usa comúnmente para procesar campos numéricos, pero no se usa ampliamente por razones de rendimiento.
(3). Tecnología de sistemas
La tecnología de supresión elimina o protege los elementos de datos que no cumplen con la protección de la privacidad, pero no los publica.
- Enmascaramiento: se refiere al método de desensibilización más común para enmascarar el valor del atributo, como el número de oponente, la tarjeta de identificación está marcada con un asterisco o la dirección se trunca.
- Supresión local: se refiere al proceso de eliminación de valores de atributos específicos (columnas), eliminando campos de datos no esenciales;
- Supresión de registros: se refiere al proceso de eliminación de registros específicos (filas), eliminando registros de datos no esenciales.
(4). Tecnología seudónima
La pseudomaning es una técnica de desidentificación que utiliza un seudónimo para reemplazar un identificador directo (u otro identificador sensible). Las técnicas de seudónimo crean identificadores únicos para cada tema de información individual, en lugar de identificadores directos o confidenciales.
- Puede generar valores aleatorios de forma independiente para corresponder a la ID original, guardar la tabla de mapeo y controlar estrictamente el acceso a la tabla de mapeo.
- También puede usar el cifrado para producir seudónimos, pero necesita mantener la clave de descifrado correctamente;
Esta tecnología se usa ampliamente en el caso de una gran cantidad de usuarios de datos independientes, como OpenID en el escenario de plataforma Open, donde diferentes desarrolladores obtienen diferentes OpenID para el mismo usuario.
(5). Técnicas de generalización
La técnica de generalización se refiere a una técnica de desidentificación que reduce la granularidad de los atributos seleccionados en un conjunto de datos y proporciona una descripción más general y abstracta de los datos. La tecnología de generalización es fácil de implementar y puede proteger la autenticidad de los datos de nivel de registro. Se usa comúnmente en productos de datos o informes de datos.
- Redondeo: implica seleccionar una base de redondeo para el atributo seleccionado, como forense hacia arriba o hacia abajo, produciendo resultados 100, 500, 1K y 10K
- Técnicas de codificación superior e inferior: reemplace los valores arriba (o debajo) del umbral con un umbral que representa el nivel superior (o inferior), produciendo un resultado de "arriba x" o "debajo de X"
(6). Técnicas de aleatorización
Como una especie de técnica de desidentificación, la tecnología de aleatorización se refiere a modificar el valor de un atributo a través de la aleatorización, de modo que el valor después de la aleatorización es diferente del valor real original. Este proceso reduce la capacidad de un atacante para derivar un valor de atributo de otros valores de atributos en el mismo registro de datos, pero afecta la autenticidad de los datos resultantes, que es común con los datos de la prueba de producción.
Tiempo de publicación: septiembre-27-2022