1. El concepto de enmascaramiento de datos
El enmascaramiento de datos, también conocido como ocultación de datos, es un método técnico para convertir, modificar u ocultar datos confidenciales, como números de teléfono móvil, números de tarjetas bancarias y otra información, según las reglas y políticas de enmascaramiento establecidas. Esta técnica se utiliza principalmente para evitar que los datos confidenciales se utilicen directamente en entornos no seguros.
Principio de enmascaramiento de datos: El enmascaramiento de datos debe mantener las características originales de los datos, las reglas de negocio y la relevancia de los datos para garantizar que el desarrollo, las pruebas y el análisis de datos posteriores no se vean afectados por el enmascaramiento. Garantizar la coherencia y validez de los datos antes y después del enmascaramiento.
2. Clasificación de enmascaramiento de datos
El enmascaramiento de datos se puede dividir en enmascaramiento de datos estático (SDM) y enmascaramiento de datos dinámico (DDM).
Enmascaramiento de datos estáticos (SDM)El enmascaramiento estático de datos requiere la creación de una nueva base de datos en un entorno que no sea de producción, para aislarla del entorno de producción. Los datos confidenciales se extraen de la base de datos de producción y se almacenan en la base de datos que no lo es. De esta forma, los datos anonimizados quedan aislados del entorno de producción, lo que satisface las necesidades del negocio y garantiza la seguridad de los datos de producción.
Enmascaramiento dinámico de datos (DDM)Generalmente se utiliza en entornos de producción para anonimizar datos confidenciales en tiempo real. En ocasiones, se requieren diferentes niveles de enmascaramiento para leer los mismos datos confidenciales en distintas situaciones. Por ejemplo, diferentes roles y permisos pueden implementar diferentes esquemas de enmascaramiento.
Aplicación de enmascaramiento de informes y productos de datos
Estos escenarios incluyen principalmente productos de monitorización de datos internos o paneles informativos, productos de datos de servicios externos e informes basados en el análisis de datos, como informes empresariales y revisiones de proyectos.
3. Solución de enmascaramiento de datos
Los esquemas comunes de enmascaramiento de datos incluyen: invalidación, valor aleatorio, reemplazo de datos, cifrado simétrico, valor promedio, desplazamiento y redondeo, etc.
InvalidaciónLa invalidación se refiere al cifrado, truncamiento u ocultamiento de datos confidenciales. Este método suele reemplazar los datos originales con símbolos especiales (como *). La operación es sencilla, pero los usuarios desconocen el formato de los datos originales, lo que puede afectar a las aplicaciones posteriores.
Valor aleatorioEl valor aleatorio se refiere a la sustitución aleatoria de datos confidenciales (números por dígitos, letras por letras y caracteres por caracteres). Este método de enmascaramiento garantiza, hasta cierto punto, el formato de los datos confidenciales y facilita su posterior procesamiento. Es posible que se necesiten diccionarios de enmascaramiento para algunas palabras con significado, como nombres de personas y lugares.
Reemplazo de datosLa sustitución de datos es similar al enmascaramiento de valores nulos y aleatorios, con la diferencia de que, en lugar de utilizar caracteres especiales o valores aleatorios, los datos de enmascaramiento se reemplazan por un valor específico.
Cifrado simétricoEl cifrado simétrico es un método especial de enmascaramiento reversible. Cifra datos confidenciales mediante claves y algoritmos de cifrado. El formato del texto cifrado es coherente con los datos originales según reglas lógicas.
PromedioEl método de promedio se utiliza con frecuencia en escenarios estadísticos. Para datos numéricos, primero calculamos su media y luego distribuimos aleatoriamente los valores desensibilizados alrededor de la media, manteniendo así constante la suma de los datos.
Desplazamiento y redondeoEste método modifica los datos digitales mediante un desplazamiento aleatorio. El redondeo con desplazamiento garantiza la autenticidad aproximada del rango, manteniendo la seguridad de los datos. Este método se acerca más a los datos reales que los esquemas anteriores y tiene gran importancia en el análisis de macrodatos.
El modelo recomendado "ML-NPB-5660" para el enmascaramiento de datos
4. Técnicas de enmascaramiento de datos de uso común
(1). Técnicas estadísticas
Muestreo y agregación de datos
- Muestreo de datos: El análisis y la evaluación del conjunto de datos original mediante la selección de un subconjunto representativo del mismo es un método importante para mejorar la eficacia de las técnicas de anonimización.
- Agregación de datos: Como conjunto de técnicas estadísticas (como suma, conteo, promedio, máximo y mínimo) aplicadas a los atributos de los microdatos, el resultado es representativo de todos los registros del conjunto de datos original.
(2). Criptografía
La criptografía es un método común para reducir o mejorar la eficacia de la desensibilización. Los distintos tipos de algoritmos de cifrado pueden lograr diferentes efectos de desensibilización.
- Cifrado determinista: Un cifrado simétrico no aleatorio. Generalmente procesa datos de identificación y puede descifrar y restaurar el texto cifrado a la identificación original cuando sea necesario, pero la clave debe estar debidamente protegida.
- Cifrado irreversible: Se utiliza una función hash para procesar los datos, generalmente para datos de identificación. No se puede descifrar directamente y es necesario guardar la relación de mapeo. Además, debido a las características de la función hash, pueden producirse colisiones de datos.
- Cifrado homomórfico: Se utiliza el algoritmo de cifrado homomórfico. Su característica principal es que el resultado de la operación de cifrado es el mismo que el de la operación de texto plano tras el descifrado. Por lo tanto, se usa comúnmente para procesar campos numéricos, pero su uso no está muy extendido debido a su rendimiento.
(3). Tecnología de sistemas
La tecnología de supresión elimina o protege los datos que no cumplen con los requisitos de privacidad, pero no los publica.
- Enmascaramiento: se refiere al método de desensibilización más común para enmascarar el valor del atributo, como el número del oponente, la tarjeta de identificación marcada con un asterisco o la dirección truncada.
- Supresión local: se refiere al proceso de eliminar valores de atributos específicos (columnas), eliminando campos de datos no esenciales;
- Supresión de registros: se refiere al proceso de eliminar registros específicos (filas), eliminando registros de datos no esenciales.
(4). Tecnología de seudónimos
El uso de seudónimos es una técnica de anonimización que emplea un seudónimo para reemplazar un identificador directo (u otro identificador sensible). Estas técnicas crean identificadores únicos para cada sujeto de información, en lugar de identificadores directos o sensibles.
- Puede generar valores aleatorios de forma independiente para que se correspondan con el ID original, guardar la tabla de correspondencia y controlar estrictamente el acceso a dicha tabla.
- También puedes usar el cifrado para generar seudónimos, pero necesitas guardar la clave de descifrado correctamente;
Esta tecnología se utiliza ampliamente en el caso de un gran número de usuarios de datos independientes, como OpenID en el escenario de plataforma abierta, donde diferentes desarrolladores obtienen diferentes OpenID para el mismo usuario.
(5). Técnicas de generalización
La técnica de generalización se refiere a una técnica de anonimización que reduce la granularidad de los atributos seleccionados en un conjunto de datos y proporciona una descripción más general y abstracta de los mismos. La tecnología de generalización es fácil de implementar y puede proteger la autenticidad de los datos a nivel de registro. Se utiliza comúnmente en productos o informes de datos.
- Redondeo: implica seleccionar una base de redondeo para el atributo seleccionado, como el redondeo forense ascendente o descendente, lo que produce resultados de 100, 500, 1K y 10K.
- Técnicas de codificación superior e inferior: Reemplazar los valores por encima (o por debajo) del umbral con un umbral que represente el nivel superior (o inferior), obteniendo como resultado "por encima de X" o "por debajo de X".
(6). Técnicas de aleatorización
Como técnica de anonimización, la tecnología de aleatorización consiste en modificar el valor de un atributo mediante un proceso aleatorio, de modo que el valor resultante sea diferente del valor real original. Este proceso reduce la capacidad de un atacante para derivar el valor de un atributo a partir de otros valores de atributos en el mismo registro de datos, pero afecta la autenticidad de los datos resultantes, lo cual es común en los datos de prueba de producción.
Fecha de publicación: 27 de septiembre de 2022



