El verdadero costo de una violación de datos

Autor: Natalie Jorian, Ph.D. y Jack Freund, Ph.D., CISA, CRISC, CISM, CGEIT, CDPSE, NACD. DC
Fecha de publicación: 22 febrero 2023

Aunque las violaciones de datos se encuentran entre los eventos cibernéticos dañinos más comunes, determinar sus costos sigue siendo un desafío. Estos incidentes exponen datos confidenciales, incluida información de identificación personal (PII), registros médicos y registros financieros, física y electrónicamente. Los costos pueden ser el resultado de la pérdida de negocios, rotación de clientes, adquisición de nuevos negocios, detección de infracciones, notificaciones, honorarios legales, honorarios civiles o penales y respuestas posteriores a la violación. Para los directores de seguridad de la información (CISO) que entienden cuán graves podrían ser estos eventos para sus organizaciones, transmitir el impacto económico de los eventos cibernéticos negativos es fundamental. Muchos CISO intentan aprovechar los métodos de cuantificación de riesgos cibernéticos (CRQ), generalmente con el estándar de Análisis Factorial de Riesgo de Información (FAIR).¹ CRQ puede ayudar en la evaluación del impacto económico. Sin embargo, un inconveniente importante es la disponibilidad de datos representativos.² Cuando faltan datos en conjuntos de registros disponibles públicamente, se necesita un enfoque para imputar adecuadamente los montos de pérdida del número de registros perdidos.

Para comprender completamente el impacto de las violaciones de datos y crear modelos para predecir gastos futuros, uno debe comprender los costos asociados, tanto directos como indirectos. Sin embargo, las violaciones de datos no se denuncian por una multitud de razones. Por ejemplo, las organizaciones a menudo no quieren revelar infracciones que puedan afectar negativamente su reputación. Aunque algunas industrias tienen el mandato de revelar infracciones, los requisitos de presentación de informes varían según el sector, el entorno normativo y el tipo de evento. Además, es posible que las organizaciones no conozcan el alcance total del impacto de una violación de datos, o que no detecten la violación en absoluto. Como resultado, la información sobre una violación de datos puede estar incompleta o completamente ausente. Se necesita una metodología para extrapolar cualquier información faltante.

Los investigadores revisaron los estudios de costos de incumplimiento existentes y construyeron nuevos modelos utilizando el conjunto integral de datos de eventos cibernéticos históricos de Advisen. Su análisis dio como resultado dos modelos de regresión que reflejan los cambios en el panorama de los eventos de violación de datos desde 2019.

Examinando la literatura

El Instituto Ponemon publica informes anuales sobre las violaciones de datos del año anterior y estima los costos de violación de datos a través de entrevistas empresariales. Para derivar el costo promedio por registro de una violación de datos, los investigadores de Ponemon dividen las pérdidas monetarias totales por el total de registros violados en el año. Por ejemplo, el costo promedio de mayo de 2020 a marzo de 2021 fue de US $ 4.24 millones, o US $ 161 por registro.³

El modelo de estimación del costo en función de Los ingresos predijeron mejor los costos directos, pero lo hicieron no predecir mejor los costos indirectos.

Este modelo simple se ajusta mal a los datos. Los investigadores analizaron los datos del Instituto Ponemon (que no están disponibles públicamente) y encontraron que su costo estimado por registro explicaba solo un pequeño porcentaje de la varianza en los valores observados. Para 2013, el precio por registro arrojó un valor r-cuadrado de 0.13, y para 2014, el valor r-cuadrado fue 0.02. En otras palabras, el modelo explicó el 13 por ciento y el 2 por ciento de la varianza en el conjunto de datos.⁴

Los análisis de Ponemon tienen varias otras limitaciones con respecto al pequeño tamaño de la muestra, los métodos de muestreo, el sesgo de no respuesta y los resultados de costos extrapolados por los encuestados. Según el Instituto Cyentia, "Una sola métrica de costo por registro simplemente no funciona y no debe usarse. Subestima el costo de los eventos más pequeños y (enormemente) sobrestima los grandes eventos".⁵ Este análisis indica que otras variables son necesarias para construir un modelo defendible además de simplemente calcular el costo de violación de datos en función del número de registros violados.

Los investigadores han intentado crear modelos explicativos adicionales para predecir el costo de la violación de datos, como una regresión lineal simple utilizando los datos del Instituto Ponemon:⁶

Para 2013: (Cantidad de pérdidas en dólares estadounidenses) =
2,330,000 + $107*(Recuento récord)

Para 2014: (monto de pérdidas en dólares estadounidenses) =
2,862,000 + $103*(Recuento récord)

La ecuación para 2013 explica el 29 por ciento de la varianza, y la ecuación para 2014 explica 24 porcentaje de la varianza.

Una regresión lineal logarítmica también se puede usar para explicar el 50 por ciento de la varianza:⁷

log(cantidad de pérdidas en dólares estadounidenses) =
7.68 + 0.76*log(Recuento récord)

Sobre la base de este trabajo, los investigadores aplicaron un modelo de regresión utilizando el conjunto de datos de Advisen (n = 265). Utilizaron log (recuento de registros), log (ingresos empresariales), si la organización enfrentó violaciones de datos anteriores, si la violación fue maliciosa, si hubo una demanda resultante y si la industria era parte de un gobierno, privado o público para predecir el registro (cantidad de pérdidas en dólares estadounidenses).⁸ De estas variables, solo el recuento de registros fue significativo. Esta ecuación explica el 46 por ciento de la varianza.

También se sugirió un método alternativo para predecir los costos utilizando un porcentaje de los ingresos anuales de la empresa. Los investigadores encontraron que la mayoría de los eventos cibernéticos cuestan a las empresas menos del 0,4 por ciento de sus ingresos anuales (aunque no evaluaron el ajuste de este modelo).⁹ El modelo de estimación de costos en función de los ingresos anuales predijo mejor los costos directos, pero no predijo mejor los costos indirectos. Aunque las violaciones de datos tuvieron un impacto en los costos indirectos, como los precios de las acciones, "la tendencia fue aislada y, en general, tuvo un impacto mínimo en las tendencias de los ingresos anuales a lo largo del tiempo".¹⁰

Factores de costo

Diseñar un modelo con más poder explicativo requiere integrar variables que impacten significativamente los costos generales de incumplimiento. El Informe de costo de una violación de datos 2022 de Ponemon Institute enumera múltiples factores relacionados con los gastos de violación, que incluyen:¹¹

Número de registros violados
Tipo de registro perdido y tipo de violación de datos
Tiempo para contener la violación
Tamaño de la empresa (medido por el número de empleados o los ingresos)
Características de cumplimiento
Industria
Ubicación de la empresa
Postura de madurez organizacional y complejidad del sistema

Algunas de estas variables son más fáciles de medir que otras, y muchas están relacionadas. Los investigadores decidieron probar sistemáticamente una serie de variables, que también eran una función de los datos disponibles, incluyendo:

Número de registros violados
Tipo de registro perdido (es decir, información de identificación personal [PII], información financiera personal [PFI], información médica protegida [PHI])
Tiempo para contener la violación
Tamaño de la empresa: ingresos, estado de Fortune 500, número de empleados
Si hubo honorarios legales asociados con la violación 6.
Industria empresarial (por ejemplo, finanzas o atención médica)

Cuanto más tarde el año, más plano es el línea, indicando que el costo de Las infracciones, con el tiempo, se convierten en menos dependiente del número de registros perdidos.

Análisis Advisen

Los datos de Advisen se filtraron para incluir casos con recuentos afectados (es decir, número de registros perdidos) que ocurrieron después de 2012. La investigación analizó exclusivamente los casos de privacidad y pérdida de datos (n = 62,306). De aquellos con un recuento afectado, solo el 1.8 por ciento tenía un costo asociado. El costo se ajustó a la inflación sobre la base de datos del Banco Mundial.

Un análisis preliminar exploró si los datos de Advisen faltaban al azar o no al azar. Para los datos que faltan completamente al azar (MCAR), la técnica de manejo de datos tiene menos limitaciones. Para los datos que no faltan al azar (NMAR), cualquier imputación puede producir resultados sesgados. Sin embargo, tampoco hay técnicas disponibles para manejar datos NMAR.

Los investigadores investigaron si había una relación entre las variables dependientes (por ejemplo, año, estado de Fortune 500, finanzas, sector de la salud) y la cantidad total faltante. Determinaron que había una relación estadísticamente significativa entre la cantidad total faltante y el año en que tuvo lugar el evento cibernético. Hubo más costos asociados en años anteriores, probablemente porque las empresas tenían costos más persistentes asociados con infracciones más antiguas. Hubo una asociación menor entre los casos desaparecidos y el sector: la atención médica tenía más casos faltantes. No hubo asociación con el estatus de Fortune 500. Dados estos hallazgos, existe una diferencia probable entre las muestras faltantes y no faltantes. El método de imputación descrito en este documento debe usarse teniendo en cuenta esta advertencia.

El análisis principal filtró los casos que tenían un monto de pérdida financiera faltante o una pérdida financiera de cero, lo que llevó a un recuento total de 1,101 casos. Se ejecutó una regresión lineal para investigar la relación entre los registros perdidos y el costo de violación de datos en dólares. En general, cuantos más registros se pierdan, mayor será el costo para la empresa. El intervalo de confianza se amplía a medida que el recuento récord supera los 100,000, lo que probablemente sea la razón por la cual el análisis del Instituto Ponemon excluyó esos casos de su análisis y los clasificó como "mega infracciones". La figura 1 es un diagrama de dispersión de las dos variables transformadas logarítmicamente.

Figure 1 -Records Lost and Data Breach Costs in US Dollars

La figura 1 muestra que cuanto mayor es el número de registros perdidos, mayor es el intervalo de confianza. El número mínimo de registros perdidos tenía una amplia gama de costos asociados.

Los investigadores probaron diferentes modelos para ver cuál tendría el mayor poder explicativo y ajustaron el costo de violación de datos para la inflación. El costo de US $ 180 del Instituto Ponemon por modelo de registro representó el 8 por ciento de la variación. Una regresión lineal simple de las dos variables produjo un valor r-cuadrado similar, probablemente porque la relación entre las dos variables no es lineal. Uso de la fórmula ¹² dio como resultado un modelo que explica solo el 13 por ciento de la varianza:

Exp(7.68 + 0.76*log(records))

Un enfoque de registro de registro similar modelado para estos datos resultó en un modelo que representa el 29 por ciento de La varianza:

log(cantidad de pérdidas en dólares estadounidenses) =
-3.82 + 0.32*log(Recuento récord)

Además del registro de registros, los investigadores investigaron 13 variables en el análisis:

Si hubo tarifas de mitigación de terceros
Sobre la existencia de procedimientos judiciales
Estado de Fortune 500
Número de empleados
Si la empresa estaba en la industria de la salud
Si la empresa estaba en la industria financiera
Estado del repetidor (si la empresa tuvo un evento anteriormente)
Si se mencionaron las tarjetas de crédito
El registro de los ingresos de la empresa
La diferencia entre la fecha del accidente y la fecha del descubrimiento
Si el caso involucraba PII
Si el caso involucró PHI
Si el caso involucraba PFI

Se utilizó regresión escalonada y se eligió el modelo con los valores más bajos del criterio de información de Akaike (AIC) y del criterio de información bayesiano (BIC), que son medidas de bondad de ajuste que penalizan el número de parámetros del modelo. ¹³ También se verificó el factor de inflación de la varianza (VIF) para asegurar que no hubiera colinealidad significativa entre las variables. La ecuación resultante explicaba el 36 por ciento de la varianza:

log(cantidad de pérdidas en dólares estadounidenses) = -4.7 + 0.3*log(Recuento récord) + 1.0*Legal − 0.2*log(Recuento de empleados) + 1.5*Estado de Fortune500
+ 0.6*Industria financiera
-

0.4*Estado del repetidor

Refinamiento del algoritmo

Para refinar aún más el modelo, los investigadores buscaron tendencias importantes en la pérdida de datos para determinar qué otras variables podrían usarse para predecir el costo total. Era evidente que el aumento del ransomware probablemente afectaría el modelo. Se marcaron los casos con rescate en las descripciones de casos para el conjunto de datos general (sin filtros). El porcentaje de casos con rescate en la descripción aumentó en 2020 al 10,82 por ciento de todos los casos (figura 2).

-Porcentaje de casos relacionados con ransomware por año de accidente

También fue útil determinar la relación entre los registros perdidos y los costos de violación por año (figura 3).

«ISACA. Comunidad. Resiliencia.

Cuanto más tarde sea el año, más plana será la línea, lo que indica que el costo de las infracciones, con el tiempo, se vuelve menos dependiente del número de registros perdidos. Después de 2017, el número de mega-brechas (aquellas con más de 100,000 casos) también disminuyó. Los cambios en los patrones anuales también pueden deberse a factores regulatorios. Por ejemplo, las multas del Reglamento General de Protección de Datos (GDPR) de la UE aumentaron en un 40 por ciento en 2020 y ha habido un aumento en el número de demandas por negligencia desde 2020. ¹⁴

A medida que se dispone de más datos, estos modelos debe ser probado, y el ajuste de variables investigadas.

Luego, los investigadores filtraron los datos a 2019 y posteriores (n = 164) para tener en cuenta el aumento de los casos de ransomware y ejecutaron una regresión gradual utilizando las mismas 13 variables utilizadas anteriormente. Además, se agregó una variable de indicador ransomware.

El modelo final para este conjunto explicó el 42 por ciento de la varianza:

log(cantidad de pérdidas en dólares estadounidenses) =
9.005 + 0.307*log(Recuento de registros) + 0.894*Legal -
0.163*PII + 0.172*log(Recuento de empleados)

Para los casos en el año anterior a 2019 (n = 937), el modelo de mejor ajuste explicó el 37 por ciento de la varianza:

log(cantidad de pérdidas en dólares estadounidenses) = 9.6953 + 0.279*log(Recuento récord) + 1.614*Legal -
0.494*PII + 0.877*Fortune500 + 0.321 *Finanzas
+ 0.135
*log(Recuento de empleados)

Discusión, limitaciones y siguiente Pasos

Los dos modelos propuestos son relativamente simples, pero explican una buena cantidad de varianza en los datos. Estos modelos funcionan mejor que los propuestos por investigadores anteriores, y abarcan un mayor lapso de años. Para los años más recientes, este modelo explica más de la varianza. Investigaciones anteriores incluyeron más predictores, la mayoría de los cuales eran insignificantes.

El hecho de que los dos rangos de fechas tuvieran variables significativas ligeramente diferentes sugiere que ha habido un cambio en los factores que influyen en el costo de los eventos cibernéticos. El reciente aumento de los ataques de ransomware podría explicar este efecto. Fortune 500 y las empresas financieras fueron atacadas con mayor frecuencia en el pasado, pero esto parece haber cambiado en los últimos años. Una posible razón es que estas empresas podrían tener más recursos y mejores salvaguardas contra posibles violaciones de datos, lo que hace que los malos actores se dirijan a las empresas de nivel inferior.

Hay varios escollos en el uso de estos modelos para imputar valores. Cuanto más tiempo haya pasado desde una violación, más probable es que el caso tenga costos adicionales, como honorarios de litigio. Como demuestra el análisis de datos faltantes, faltan datos significativos y diferencias entre algunas variables nominales en el conjunto de datos (año e industria). La industria es importante en términos de disponibilidad de datos y los montos de pérdida, que probablemente sean una función de los requisitos reglamentarios. Dado que es posible que los datos no falten al azar, imputar valores de manera uniforme puede ser problemático.

Además, los resultados no fueron validados de forma cruzada debido a la cantidad limitada de datos; Por lo tanto, el modelo puede sobreajustar los datos. Las variables explicativas faltantes podrían aumentar la varianza explicada en el modelo. A medida que se disponga de más datos, estos modelos deben probarse e investigarse el ajuste de variables adicionales. Tampoco está claro si este modelo puede predecir eventos futuros.

Conclusión

Estimar los costos de violación de datos no es tan simple como calcular el costo por registro perdido. Esta heurística se ha vuelto aún menos precisa en los últimos años, especialmente dado el aumento del ransomware. El Efecto Reina Roja en ciberseguridad se basa en la idea de que la defensa de la ciberseguridad evoluciona en respuesta a la innovación en las estrategias de hackers.¹⁵ Cambiar las estrategias de los hackers conducirá a diferentes efectos y, en última instancia, a modelos obsoletos. Para maximizar la precisión del modelo, se deben considerar muchos factores al extrapolar las pérdidas potenciales. Además, la pertinencia de estos factores debe verificarse de manera continua.

Esta investigación propone una nueva forma de extrapolar datos para el modelado de pérdidas. Normalmente, al modelar la pérdida utilizando datos históricos, los casos con costos faltantes se excluyen del conjunto de datos. A veces, solo se conserva una pequeña fracción de los casos para crear estos modelos, lo que resulta en una dependencia excesiva de un pequeño conjunto de datos. Esta investigación propone una forma de calcular los costos faltantes, lo que resulta en más información extraída y un conjunto de datos mucho más grande para la construcción de modelos adicionales. La previsión precisa de pérdidas futuras a partir de conjuntos de datos históricos requiere una disciplina continua en torno a las pruebas de modelos y la realización de ajustes según sea necesario. Estos modelos propuestos deberían someterse a una evaluación futura. Es solo a través de la validación continua del modelo que la industria puede avanzar en la madurez de las prácticas de gestión de riesgos de ciberseguridad.

Fuente: ISACA Journal

Buscar este blog

Análisis de Riesgos Tecnológico, en la vida cotidiana