1. El concepto de enmascaramiento de datos
El enmascaramiento de datos, también conocido como enmascaramiento de datos, es un método técnico para convertir, modificar o enmascarar datos confidenciales, como números de teléfono móvil, números de tarjetas bancarias y otra información, cuando se han establecido reglas y políticas de enmascaramiento. Esta técnica se utiliza principalmente para evitar que los datos confidenciales se utilicen directamente en entornos poco fiables.
Principio de enmascaramiento de datos: El enmascaramiento de datos debe conservar las características originales de los datos, las reglas de negocio y su relevancia para garantizar que el desarrollo, las pruebas y el análisis de datos posteriores no se vean afectados. Asegúrese de que los datos sean consistentes y válidos antes y después del enmascaramiento.
2. Clasificación de enmascaramiento de datos
El enmascaramiento de datos se puede dividir en enmascaramiento de datos estáticos (SDM) y enmascaramiento de datos dinámicos (DDM).
Enmascaramiento de datos estáticos (SDM)El enmascaramiento estático de datos requiere la creación de una nueva base de datos del entorno de producción para aislarla del entorno de producción. Los datos sensibles se extraen de la base de datos de producción y se almacenan en la base de datos de producción. De esta forma, los datos desensibilizados se aíslan del entorno de producción, lo que satisface las necesidades del negocio y garantiza la seguridad de los datos de producción.
Enmascaramiento dinámico de datos (DDM)Se utiliza generalmente en el entorno de producción para desensibilizar datos sensibles en tiempo real. En ocasiones, se requieren diferentes niveles de enmascaramiento para leer los mismos datos sensibles en distintas situaciones. Por ejemplo, diferentes roles y permisos pueden implementar distintos esquemas de enmascaramiento.
Aplicación de informes de datos y enmascaramiento de productos de datos
Estos escenarios incluyen principalmente productos de monitoreo de datos internos o billboard, productos de datos de servicios externos e informes basados en análisis de datos, como informes comerciales y revisión de proyectos.
3. Solución de enmascaramiento de datos
Los esquemas comunes de enmascaramiento de datos incluyen: invalidación, valor aleatorio, reemplazo de datos, cifrado simétrico, valor promedio, desplazamiento y redondeo, etc.
InvalidaciónLa invalidación se refiere al cifrado, truncamiento u ocultación de datos confidenciales. Este esquema suele reemplazar los datos reales con símbolos especiales (como *). La operación es sencilla, pero los usuarios no pueden conocer el formato de los datos originales, lo que podría afectar a las aplicaciones posteriores.
Valor aleatorioEl valor aleatorio se refiere a la sustitución aleatoria de datos sensibles (números que sustituyen dígitos, letras que sustituyen letras y caracteres que sustituyen caracteres). Este método de enmascaramiento garantiza el formato de los datos sensibles hasta cierto punto y facilita su posterior aplicación. Es posible que se necesiten diccionarios de enmascaramiento para algunas palabras con significado, como nombres de personas y lugares.
Reemplazo de datos:El reemplazo de datos es similar al enmascaramiento de valores nulos y aleatorios, excepto que en lugar de utilizar caracteres especiales o valores aleatorios, los datos de enmascaramiento se reemplazan con un valor específico.
Cifrado simétricoEl cifrado simétrico es un método especial de enmascaramiento reversible. Cifra datos confidenciales mediante claves y algoritmos de cifrado. El formato del texto cifrado es coherente con los datos originales mediante reglas lógicas.
PromedioEl esquema de promedio se utiliza a menudo en escenarios estadísticos. Para datos numéricos, primero calculamos su media y luego distribuimos aleatoriamente los valores desensibilizados alrededor de la media, manteniendo así constante la suma de los datos.
Desplazamiento y redondeoEste método modifica los datos digitales mediante un desplazamiento aleatorio. El redondeo de desplazamiento garantiza la autenticidad aproximada del rango, manteniendo al mismo tiempo la seguridad de los datos, lo que los acerca más a los datos reales que los esquemas anteriores, lo que resulta fundamental en el análisis de big data.
El modelo recomendadoML-NPB-5660" para el enmascaramiento de datos
4. Técnicas de enmascaramiento de datos comúnmente utilizadas
(1). Técnicas estadísticas
Muestreo y agregación de datos
- Muestreo de datos: El análisis y la evaluación del conjunto de datos originales mediante la selección de un subconjunto representativo del conjunto de datos es un método importante para mejorar la eficacia de las técnicas de desidentificación.
- Agregación de datos: Como una colección de técnicas estadísticas (como suma, conteo, promedio, máximo y mínimo) aplicadas a atributos en microdatos, el resultado es representativo de todos los registros en el conjunto de datos original.
(2) Criptografía
La criptografía es un método común para desensibilizar o mejorar la eficacia de la desensibilización. Diferentes tipos de algoritmos de cifrado pueden lograr distintos efectos de desensibilización.
Cifrado determinista: Cifrado simétrico no aleatorio. Generalmente procesa datos de identificación y puede descifrar y restaurar el texto cifrado a su identificación original cuando sea necesario, pero la clave debe estar debidamente protegida.
Cifrado irreversible: La función hash se utiliza para procesar datos, generalmente de identificación. No se puede descifrar directamente y la relación de mapeo debe guardarse. Además, debido a la función hash, pueden producirse colisiones de datos.
Cifrado homomórfico: Se utiliza el algoritmo homomórfico de texto cifrado. Su característica es que el resultado de la operación con texto cifrado es el mismo que el de la operación con texto plano tras el descifrado. Por lo tanto, se utiliza comúnmente para procesar campos numéricos, pero no se usa ampliamente por razones de rendimiento.
(3) Tecnología de sistemas
La tecnología de supresión elimina o protege los datos que no cumplen con la protección de la privacidad, pero no los publica.
- Enmascaramiento: se refiere al método de desensibilización más común para enmascarar el valor del atributo, como el número del oponente, la tarjeta de identificación está marcada con un asterisco o la dirección está truncada.
- Supresión local: se refiere al proceso de eliminar valores de atributos específicos (columnas), eliminando campos de datos no esenciales;
- Supresión de registros: se refiere al proceso de eliminar registros específicos (filas), eliminando registros de datos no esenciales.
(4) Tecnología de seudónimos
La pseudomanía es una técnica de desidentificación que utiliza un seudónimo en lugar de un identificador directo (u otro identificador sensible). Las técnicas de seudónimo crean identificadores únicos para cada sujeto de información, en lugar de identificadores directos o sensibles.
- Puede generar valores aleatorios de forma independiente para que correspondan con el ID original, guardar la tabla de mapeo y controlar estrictamente el acceso a la tabla de mapeo.
- También puedes utilizar el cifrado para producir seudónimos, pero es necesario conservar correctamente la clave de descifrado;
Esta tecnología se utiliza ampliamente en el caso de una gran cantidad de usuarios de datos independientes, como OpenID en el escenario de plataforma abierta, donde diferentes desarrolladores obtienen diferentes OpenID para el mismo usuario.
(5) Técnicas de generalización
La técnica de generalización se refiere a una técnica de desidentificación que reduce la granularidad de los atributos seleccionados en un conjunto de datos y proporciona una descripción más general y abstracta de los datos. Esta tecnología es fácil de implementar y puede proteger la autenticidad de los datos a nivel de registro. Se utiliza comúnmente en productos o informes de datos.
- Redondeo: implica seleccionar una base de redondeo para el atributo seleccionado, como análisis forense ascendente o descendente, arrojando resultados 100, 500, 1K y 10K.
- Técnicas de codificación superior e inferior: Reemplace los valores superiores (o inferiores) del umbral con un umbral que represente el nivel superior (o inferior), lo que produce un resultado de "superior a X" o "inferior a X".
(6) Técnicas de aleatorización
Como técnica de desidentificación, la tecnología de aleatorización consiste en modificar el valor de un atributo mediante aleatorización, de modo que el valor resultante sea diferente del valor real original. Este proceso reduce la capacidad de un atacante para derivar el valor de un atributo a partir de otros valores en el mismo registro de datos, pero afecta la autenticidad de los datos resultantes, algo común en los datos de prueba de producción.
Hora de publicación: 27 de septiembre de 2022