Áreas de investigación
Contenido
Las áreas de investigación en seguridad de la IA incluyen la solidez, la supervisión y la alineación.[26][28] La solidez busca lograr que los sistemas sean altamente confiables, la supervisión trata de anticipar fallos y de detectar usos indebidos, y la alineación se centra en garantizar que persigan objetivos beneficiosos.
Solidez
El estudio de la solidez se centra en garantizar que los sistemas de IA se comporten según lo previsto en una amplia gama de situaciones diferentes, lo que incluye los siguientes problemas secundarios:.
• - Solidez ante cisnes negros: crear sistemas que se comporten como está previsto en situaciones inusuales.
• - Solidez antagónica: diseñar sistemas para que sean resistentes a entradas de datos escogidas intencionalmente para hacerlos fallar.
Las entradas de datos inusuales pueden hacer que los sistemas de IA fallen de forma catastrófica. Por ejemplo, en el "Flash Crash" de 2010, los sistemas automatizados de negociación (trading en inglés) reaccionaron de forma inesperada y excesiva a las aberraciones de mercado, destruyendo un billón de dólares en valores bursátiles en cuestión de minutos.[30].
Nótese que no es necesario que se produzca un cambio de distribución para que esto ocurra. Los fallos de tipo cisne negro pueden producirse cuando los datos de entrada son de larga cola, como suele ocurrir en situaciones de la vida real.[31] Los vehículos autónomos siguen teniendo problemas con "casos poco habituales" (corner cases en inglés) que pueden no haber surgido durante el periodo de formación; por ejemplo, un vehículo podría ignorar una señal de alto que esté encendida como una rejilla de LED.[32].
A pesar de que este tipo de problemas pueden resolverse a medida que los sistemas de aprendizaje automático (AA) desarrollen una mejor comprensión del mundo real, algunos investigadores señalan que incluso los humanos no suelen responder adecuadamente a sucesos sin precedentes (como la pandemia de COVID-19), argumentando que la solidez ante cisnes negros será un problema de seguridad persistente.[28].
Los sistemas de IA suelen ser vulnerables a muestras antagónicas o "entradas de datos a modelos de aprendizaje automático que un atacante ha diseñado intencionadamente para que el modelo cometa un error".[33] Por ejemplo, en 2013, Szegedy y colaboradores descubrieron que añadir determinadas distorsiones imperceptibles a una imagen podía hacer que esta fuera clasificada erróneamente y con un elevado nivel de confianza.[34] Esto sigue siendo un problema para las redes neuronales, aunque en estudios recientes las distorsiones suelen ser lo suficientemente grandes como para resultar perceptibles.[35][35][36].
Todas las imágenes de la derecha fueron clasificadas como avestruces tras la aplicación de una distorsión. (Izquierda) una muestra clasificada correctamente, (centro) distorsión aplicada ampliada 10 veces, (derecha) muestra antagónica.[34].
La solidez antagónica se asocia a menudo con la seguridad.[37] Varios investigadores demostraron que una señal de audio podía modificarse de forma imperceptible para que los sistemas de conversión de voz a texto la transcribieran a cualquier mensaje que el atacante eligiera.[38] Los sistemas de detección de intrusiones en la red[39] y de software malicioso (malware en inglés)[40] también deben presentar solidez antagónica, ya que los atacantes podrían diseñar ataques capaces de engañar dichos detectores.
Los modelos que representan objetivos (modelos de recompensa) también deben poseer solidez antagónica. Por ejemplo, un modelo de recompensa puede estimar la utilidad de una respuesta textual y un modelo de lenguaje puede entrenarse para maximizar este resultado.[41] Diversos investigadores han demostrado que si un modelo de lenguaje es entrenado durante el tiempo suficiente, éste aprovechará las vulnerabilidades del modelo de recompensa para lograr un mejor resultado incluso al desempeñarse peor en la tarea prevista.[42] Este problema puede resolverse mejorando la solidez antagónica del modelo de recompensa.[43] En términos más generales, cualquier sistema de IA utilizado para evaluar otro sistema de IA debe tener una solidez antagónica. Esto podría incluir a los sistemas de supervisión, ya que éstos también son susceptibles de ser manipulados para obtener una recompensa mayor.[44].
Supervisión
La supervisión se centra en anticipar los fallos de los sistemas de IA para poder prevenirlos o gestionarlos. Entre los problemas secundarios de la supervisión se encuentran la detección de sistemas poco confiables, la detección de usos malintencionados, la comprensión del funcionamiento interno de los sistemas de IA de caja negra "Caja negra (sistemas)") y la identificación de funciones ocultas creadas por un agente malintencionado.
Muchas veces es importante que los operadores humanos evalúen hasta qué punto deben confiar en un sistema de IA, especialmente en entornos de alto riesgo como el diagnóstico médico.[45] Por lo general, los modelos AA transmiten confianza al generar probabilidades; sin embargo, a menudo se muestran demasiado confiados,[46] sobre todo en situaciones que difieren de aquellas para las que fueron entrenados.[47] El objetivo de la investigación en materia de calibración es conseguir que las probabilidades del modelo se correspondan lo más posible con la proporcionalidad real de que el modelo esté en lo correcto.
Del mismo modo, la detección de anomalías o detección fuera de distribución (out-of-distribution o OOD en inglés) pretende identificar cuándo un sistema de IA se encuentra en una situación inusual. Por ejemplo, si el sensor de un vehículo autónomo funciona mal o se encuentra con un terreno difícil, debe alertar al conductor para que tome el control o se detenga.[48] La detección de anomalías suele implementarse mediante el simple entrenamiento de un clasificador para distinguir las entradas anómalas de las que no lo son,[49] aunque también se utilizan otras técnicas.[50][51].
Académicos[9] y organismos públicos han expresado su preocupación ante la posibilidad de que los sistemas de IA sean utilizados para ayudar a agentes malintencionados a fabricar armas,[52] manipular la opinión pública[53][54] o automatizar ciberataques.[55] Estas inquietudes son una preocupación práctica para empresas como OpenAI, que alojan potentes herramientas de IA en línea.[56] Para evitar usos indebidos, OpenAI ha creado sistemas de detección que señalizan o restringen a los usuarios en función de su actividad.[57].
Las redes neuronales a menudo son descritas como cajas negras "Caja negra (sistemas)"),[58] lo que significa que es difícil entender por qué toman las decisiones que toman como resultado del enorme número de procesos computacionales que realizan.[59] Esto supone un reto para adelantarse a los fallos. En 2018, un vehículo autónomo mató a un peatón tras fallar en identificarlo. Debido a la naturaleza de caja negra del software de IA, la razón del fallo sigue siendo incierta.[60].
Una de las ventajas de la transparencia es la explicabilidad.[61] A veces es un requisito legal dar una explicación de por qué se ha tomado una decisión para garantizar la imparcialidad, por ejemplo para el filtrado automático de solicitudes de empleo o la asignación de puntuaciones crediticias.[61].
Seguridad sistémica y factores socio-técnicos
Es habitual que los riesgos de la IA (y los riesgos tecnológicos en general) sean clasificados como uso indebido o accidentes.[103] Algunos especialistas han sugerido que este planteamiento se queda corto.[103] Por ejemplo, la crisis de los misiles de Cuba claramente no fue un accidente o un mal uso de la tecnología.[103] Los analistas políticos Zwetsloot y Dafoe escribieron:[103].
Los factores de riesgo suelen ser de carácter "estructural" o "sistémico", como la presión de la competencia, la difusión de los daños, el desarrollo acelerado, los altos niveles de incertidumbre y una inadecuada cultura de seguridad.[103] En un contexto más amplio de ingeniería de seguridad, factores estructurales como la "cultura de seguridad organizativa" desempeñan un papel central en el popular marco de análisis de riesgos STAMP.[104].
Inspirándose en la perspectiva estructural, algunos investigadores han destacado la importancia de utilizar el aprendizaje automático para mejorar los factores de seguridad socio-técnica, por ejemplo, utilizando el AA para la defensa cibernética (ciberdefensa; o cyber defense en inglés), mejorando la toma de decisiones institucionales y facilitando la cooperación.[28].
A algunos especialistas les preocupa que la IA pueda exacerbar el ya de por sí desequilibrado panorama entre ciberatacantes y ciberdefensores.[105] Esto aumentaría los incentivos para un "primer ataque" y podría conducir a ataques más agresivos y desestabilizadores. Para reducir este riesgo, algunos recomiendan hacer más hincapié en la ciberdefensa. Asimismo, la seguridad de los programas informáticos es esencial para evitar el robo y el uso indebido de los potentes modelos de IA.[9].
El avance de la IA en ámbitos económicos y militares podría desencadenar desafíos políticos sin precedentes.[106] Algunos expertos han comparado el desarrollo de la inteligencia artificial con la Guerra Fría, en la que la toma de decisiones por parte de un reducido número de personas a menudo marcaba la diferencia entre la estabilidad y la catástrofe.[107] Investigadores del campo de la IA han sostenido que las tecnologías de IA también podrían utilizarse para ayudar en la toma de decisiones.[28] Por ejemplo, se están empezando a desarrollar sistemas de previsión[108] y asesoramiento basados en IA.[109].
Muchas de las principales amenazas mundiales (guerra nuclear,[110] cambio climático,[111] etc.) han sido enmarcadas como problemas de cooperación. Como ocurre en el conocido dilema del prisionero, algunas dinámicas pueden conducir a malos resultados para todos los participantes, incluso cuando éstos actúan en su propio beneficio. Por ejemplo, ningún agente posee incentivos sólidos para hacer frente al cambio climático, a pesar de que las consecuencias pueden ser graves si nadie interviene.[111].