Áreas de pesquisa
Contenido
Las áreas de investigación en seguridad de la IA incluyen la solidez, la supervisión y la alineación.[26][28] La solidez busca lograr que los sistemas sean altamente confiables, la supervisión trata de anticipar fallos y de detectar usos indebidos, y la alineación se centra en garantizar que persigan objetivos beneficiosos.
Solidez
O estudo da robustez centra-se em garantir que os sistemas de IA se comportam conforme pretendido numa ampla gama de situações diferentes, incluindo os seguintes problemas secundários:
• - Robustez contra cisnes negros: criar sistemas que se comportem conforme o esperado em situações inusitadas.
• - Robustez adversária: projetar sistemas para serem resistentes a entradas de dados escolhidas intencionalmente para fazê-los falhar.
Entradas de dados incomuns podem causar falhas catastróficas nos sistemas de IA. Por exemplo, no “Flash Crash” de 2010, os sistemas de negociação automatizados reagiram de forma inesperada e excessiva às aberrações do mercado, destruindo um bilião de dólares em valores de ações numa questão de minutos.[30].
Observe que uma alteração na distribuição não precisa ocorrer para que isso ocorra. As falhas do cisne negro podem ocorrer quando os dados de entrada são de cauda longa, como costuma acontecer em situações da vida real.[31] Os veículos autônomos continuam a ter problemas com “casos extremos” que podem não ter surgido durante o período de treinamento; Por exemplo, um veículo pode ignorar um sinal de parada iluminado, como uma grade de LED.[32].
Embora estes tipos de problemas possam ser resolvidos à medida que os sistemas de aprendizagem automática (ML) desenvolvem uma melhor compreensão do mundo real, alguns investigadores salientam que mesmo os humanos muitas vezes não conseguem responder adequadamente a eventos sem precedentes (como a pandemia da COVID-19), argumentando que a robustez aos cisnes negros será um problema de segurança persistente.[28].
Os sistemas de IA são frequentemente vulneráveis a amostras adversárias ou "entradas de dados para modelos de aprendizado de máquina que um invasor projetou intencionalmente para causar um erro no modelo". Por exemplo, em 2013, Szegedy e colegas descobriram que adicionar certas distorções imperceptíveis a uma imagem poderia fazer com que ela fosse classificada incorretamente com um alto nível de confiança. As distorções geralmente são grandes o suficiente para serem perceptíveis.[35][35][36].
Todas as imagens à direita foram classificadas como avestruzes após aplicação de distorção. (Esquerda) uma amostra classificada corretamente, (centro) distorção aplicada ampliada 10 vezes, (direita) amostra adversária.[34].
A robustez adversária é frequentemente associada à segurança.[37] Vários pesquisadores demonstraram que um sinal de áudio poderia ser modificado imperceptivelmente para que os sistemas de fala para texto o transcrevessem em qualquer mensagem que o invasor escolhesse.[38] A intrusão de rede[39] e os sistemas de detecção de malware[40] também devem exibir robustez adversária, pois os invasores podem projetar ataques capazes de enganar esses detectores.
Os modelos que representam objetivos (modelos de recompensa) também devem possuir robustez adversária. Por exemplo, um modelo de recompensa pode estimar a utilidade de uma resposta textual e um modelo de linguagem pode ser treinado para maximizar este resultado.[41] Vários pesquisadores mostraram que se um modelo de linguagem for treinado por tempo suficiente, ele explorará as vulnerabilidades do modelo de recompensa para alcançar um resultado melhor, mesmo com um desempenho pior na tarefa pretendida. Isto pode incluir sistemas de supervisão, uma vez que estes também são suscetíveis de serem manipulados para obter uma recompensa mais elevada.[44].
Supervisão
O monitoramento concentra-se em antecipar falhas do sistema de IA para que possam ser evitadas ou gerenciadas. Os problemas secundários de monitoramento incluem a detecção de sistemas não confiáveis, a detecção de usos maliciosos, a compreensão do funcionamento interno dos sistemas de IA de caixa preta (Caixa Preta (Sistemas)) e a identificação de funções ocultas criadas por um ator mal-intencionado.
Muitas vezes é importante que os operadores humanos avaliem até que ponto devem confiar num sistema de IA, especialmente em ambientes de alto risco, como diagnóstico médico.[45] Os modelos de ML normalmente transmitem confiança ao gerar probabilidades; No entanto, eles são frequentemente excessivamente confiantes,[46] especialmente em situações que diferem daquelas para as quais foram treinados.[47] O objetivo da pesquisa de calibração é fazer com que as probabilidades do modelo correspondam o mais próximo possível da proporcionalidade real do modelo estar correto.
Da mesma forma, a detecção de anomalias ou detecção fora de distribuição (OOD) visa identificar quando um sistema de IA está em uma situação incomum. Por exemplo, se o sensor de um veículo autônomo apresentar mau funcionamento ou encontrar terreno difícil, ele deve alertar o motorista para assumir o controle ou parar.[48] A detecção de anomalias é normalmente implementada simplesmente treinando um classificador para distinguir entradas anômalas de entradas não anômalas,[49] embora outras técnicas também sejam usadas.[50][51].
Acadêmicos[9] e órgãos públicos expressaram preocupação de que os sistemas de IA possam ser usados para ajudar atores mal-intencionados a fabricar armas,[52] manipular a opinião pública[53][54] ou automatizar ataques cibernéticos.[55] Essas preocupações são uma preocupação prática para empresas como a OpenAI, que hospedam poderosas ferramentas de IA on-line.[56] Para evitar o uso indevido, a OpenAI criou sistemas de detecção que sinalizam ou restringem usuários com base em suas atividades.[57].
As redes neurais são frequentemente descritas como caixas pretas ("Caixa Preta (sistemas)"),[58] o que significa que é difícil entender por que elas tomam as decisões que tomam como resultado do enorme número de processos computacionais que executam.[59] Isso representa um desafio para se manter à frente das falhas. Em 2018, um veículo autônomo matou um pedestre após não conseguir identificá-lo. Devido à natureza de caixa preta do software de IA, o motivo da falha permanece incerto.[60].
Um dos benefícios da transparência é a explicabilidade.[61] Às vezes, é um requisito legal fornecer uma explicação do motivo pelo qual uma decisão foi tomada para garantir a imparcialidade, por exemplo, para a filtragem automática de pedidos de emprego ou a atribuição de pontuações de crédito.[61].
Outra vantagem é revelar a causa das falhas.[58] No início da pandemia de COVID-19 de 2020, vários pesquisadores usaram ferramentas de transparência para demonstrar que os classificadores de imagens médicas estavam "prestando atenção" a rótulos hospitalares irrelevantes.[62].
Segurança sistêmica e fatores sociotécnicos
É comum que os riscos de IA (e riscos tecnológicos em geral) sejam classificados como uso indevido ou acidentes.[103] Alguns estudiosos sugeriram que esta abordagem é insuficiente.[103] Por exemplo, a crise dos mísseis cubanos claramente não foi um acidente ou uso indevido de tecnologia.[103] Os analistas políticos Zwetsloot e Dafoe escreveram:[103].
Os fatores de risco são tipicamente de natureza “estrutural” ou “sistêmica”, como pressão competitiva, difusão de danos, desenvolvimento acelerado, altos níveis de incerteza e cultura de segurança inadequada.[103] Num contexto mais amplo de engenharia de segurança, fatores estruturais como a “cultura de segurança organizacional” desempenham um papel central na popular estrutura de análise de risco STAMP.[104]
Inspirados na perspetiva estrutural, alguns investigadores destacaram a importância da utilização da aprendizagem automática para melhorar os fatores de segurança sociotécnicos, por exemplo, utilizando o ML para a defesa cibernética, melhorando a tomada de decisões institucionais e facilitando a cooperação.[28].
Alguns especialistas estão preocupados com o facto de a IA poder exacerbar o cenário já desequilibrado entre os ciberataques e os ciberdefensores.[105] Isto aumentaria os incentivos para um "primeiro ataque" e poderia levar a ataques mais agressivos e desestabilizadores. Para reduzir este risco, alguns recomendam dar mais ênfase à defesa cibernética. Da mesma forma, a segurança do software é essencial para evitar o roubo e o uso indevido de modelos poderosos de IA.[9].
O avanço da IA nos campos económico e militar poderá desencadear desafios políticos sem precedentes.[106] Alguns especialistas compararam o desenvolvimento da inteligência artificial à Guerra Fria, na qual a tomada de decisões por um pequeno número de pessoas significou muitas vezes a diferença entre estabilidade e catástrofe.[107] Pesquisadores no campo da IA argumentaram que as tecnologias de IA também poderiam ser usadas para auxiliar na tomada de decisões.[28] Por exemplo, os sistemas de inteligência estão começando a ser desenvolvidos. Previsão baseada em IA[108] e aconselhamento.[109].
Muitas das principais ameaças globais (guerra nuclear,[110] alterações climáticas,[111] etc.) foram enquadradas como problemas de cooperação. Tal como no conhecido dilema do prisioneiro, algumas dinâmicas podem levar a maus resultados para todos os participantes, mesmo quando agem em benefício próprio. Por exemplo, nenhum agente tem fortes incentivos para enfrentar as alterações climáticas, embora as consequências possam ser graves se ninguém intervir.[111].
Um dos principais desafios da cooperação em IA é evitar uma «corrida para o fundo».[112] Neste contexto, os países ou empresas competiriam para construir sistemas de inteligência artificial mais capazes e negligenciariam a segurança, levando a um acidente catastrófico que prejudicaria todos os envolvidos. A preocupação com este tipo de situação motivou esforços políticos[113] e técnicos[114] para facilitar a cooperação entre seres humanos e, potencialmente, entre sistemas de IA. A maioria das pesquisas em IA concentra-se no projeto de agentes individuais para executar funções isoladas (geralmente em "jogos para um jogador").[115] Vários especialistas sugeriram que, à medida que os sistemas de IA se tornam mais autónomos, pode ser essencial estudar e moldar a forma como interagem.[115]