Detecção de perigos por IA (segurança) | Construpedia

Navegación

Detecção de perigos por IA (segurança)

Introdução

Em geral

No campo da inteligência artificial, a pesquisa de alinhamento de IA preocupa-se em encontrar formas de direcionar o desenvolvimento de sistemas de inteligência artificial de acordo com os objetivos e interesses dos seus projetistas.

O alinhamento dos sistemas de inteligência artificial inclui os seguintes problemas: a dificuldade de especificar completamente todos os comportamentos desejados e indesejados; a utilização de objectivos intermédios fáceis de especificar que omitem restrições desejáveis; armadilhas de recompensa, pelas quais os sistemas encontram brechas em tais objetivos intermediários, criando efeitos colaterais; veículos,[12] e sistemas de recomendação de redes sociais.[10][5][13] Acredita-se que os problemas são tanto mais prováveis quanto mais capaz for o sistema, uma vez que resultam parcialmente da alta capacidade.[14][6].

A comunidade de investigação em IA e as Nações Unidas apelaram tanto a soluções técnicas baseadas em investigação como a soluções políticas para garantir que os sistemas estejam alinhados com os valores humanos.[c].

O alinhamento de sistemas faz parte de um campo de estudo mais amplo chamado segurança de IA, ou o estudo de como construir sistemas de IA que sejam seguros.[6][17] Os caminhos para a pesquisa de alinhamento incluem aprender valores e preferências humanas, desenvolver IA honesta, monitoramento extensível, examinar e interpretar modelos de IA e prevenir comportamentos emergentes, como busca por energia.[6][18] A pesquisa de alinhamento tem conexões com pesquisas sobre interpretabilidade,[19] robustez,[6][17] detecção de anomalias, incerteza calibrada,[19] verificação formal,[20] aprendizado de preferência,[21][22][23] engenharia de segurança,[6] teoria dos jogos,[24][25] justiça algorítmica "Equidade (aprendizado de máquina)"),[17][26] e ciências sociais,[27] entre outros.

O problema do alinhamento

Contenido

En 1960, Norbert Wiener, pionero de la inteligencia artificial, articuló el problema de la alineación del modo siguiente: “Si para lograr nuestros propósitos usamos un medio mecánico en cuyo funcionamiento no podemos interferir de manera efectiva […] será mejor que estemos muy seguros de que el propósito puesto en la máquina es el propósito que realmente deseamos.”[28][5] Más recientemente, la alineación de la inteligencia artificial se presenta como un problema sin resolver en lo que se refiere a los sistemas modernos[29][30][31][32] y constituye un campo propio de investigación dentro de la inteligencia artificial.[33][34][35].

Detecção de perigos por IA (segurança)

Introdução

Em geral

O problema do alinhamento

Contenido

Conjunto de especificações e complexidade de valor

Parte do problema de alinhamento envolve especificar objetivos de uma forma que capture valores importantes e evite lacunas e consequências não intencionais.[33] Em muitos casos, as especificações usadas para treinar um sistema não correspondem aos objetivos pretendidos pelo designer do algoritmo.[36][18] Projetar tais especificações é difícil para resultados complexos, como linguagem, movimentos robóticos ou recomendação de conteúdo. Isso ocorre porque é difícil descrever completamente o que torna desejável qualquer resultado complexo. Por exemplo, ao treinar um agente de aprendizagem por reforço para competir em uma corrida de barco virtual, os pesquisadores da OpenAI notaram que o agente encontrou "uma brecha isolada onde pode girar em círculos e atingir repetidamente três alvos [...]. Nosso agente atinge uma pontuação mais alta usando esta estratégia do que completando o percurso da maneira normal." convincente.[38][39][23] A pesquisa tenta alinhar esses modelos com objetivos mais seguros ou mais úteis.

O cientista da computação de Berkeley, Stuart Russell, alertou que omitir uma restrição implícita pode ser prejudicial: "Um sistema [...] muitas vezes conduzirá [...] variáveis irrestritas a valores extremos; se uma dessas variáveis for algo com que realmente nos importamos, a solução que encontrarmos pode ser muito indesejável. Essencialmente, é a velha história do Gênio da Lâmpada, do Aprendiz de Feiticeiro ou do Rei Midas: você obtém exatamente o que pede, não o que deseja."

Quando a inteligência artificial desalinhada é implantada, os efeitos colaterais podem ser significativos. É sabido que as plataformas de redes sociais otimizam as taxas de cliques para melhorar a experiência do usuário, mas isso criou vícios, que diminuíram o bem-estar de muitos deles. Pesquisadores da Universidade de Stanford observam que tais algoritmos de recomendação não estão alinhados com os usuários porque “otimizam métricas simples de engajamento em vez de visar uma combinação de bem-estar social e do consumidor, o que é mais difícil de medir”.

Escrever uma especificação que evite efeitos indesejados pode ser um desafio. A solução é por vezes proposta como simplesmente proibir o sistema de realizar ações perigosas, por exemplo, listando resultados proibidos ou formalizando regras éticas simples.[41] No entanto, Russell argumentou que esta abordagem não leva em conta a complexidade dos valores humanos:[5] "É certamente muito difícil, e talvez impossível, para meros humanos antecipar e excluir antecipadamente todas as formas desastrosas que a máquina pode escolher para atingir um objetivo específico."[5] Este argumento foi desde então formalizado por Cohen. et al., que indicam que os sinais de recompensa são ambíguos entre a aprovação dos estados mundiais e a aprovação do envio de grandes recompensas.[42] Essa ambigüidade fornece um meio geral de trapaça para obter recompensas.

Além disso, não é impossível que sistemas autônomos recebam alvos incorretos acidentalmente. Dois ex-presidentes da Associação para o Avanço da Inteligência Artificial (AAAI), Tom Dietterich e Eric Horvitz, apontam que isso já é motivo de preocupação: “Um aspecto importante de qualquer sistema de inteligência artificial que interage com as pessoas é que ele deve raciocinar sobre o que as pessoas querem, em vez de literalmente executar ordens”. Além disso, um sistema que compreende as intenções humanas também poderia ignorar: os sistemas só agem de acordo com a função objetivo, com os exemplos ou com as reações que os seus projetistas têm.[33].

Riscos da inteligência artificial avançada desalinhada

Alguns investigadores estão particularmente interessados no alinhamento de sistemas artificiais cada vez mais avançados. As razões são a elevada taxa de progresso no domínio da inteligência artificial, os enormes esforços da indústria e dos governos para desenvolver sistemas artificiais avançados e a dificuldade crescente de os alinhar.

Já em 2020, OpenAI, DeepMind e 70 outros projetos públicos tinham o objetivo declarado de alcançar a chamada inteligência artificial geral, um sistema hipotético que iguala ou supera os humanos numa ampla gama de tarefas cognitivas. [46][47][48] De acordo com pesquisas, alguns especialistas acreditam que esses sistemas gerais serão alcançados em breve, outros acreditam que levará muito mais tempo, e um terceiro grupo considera que ambos os cenários são possíveis.[49][50].

Os sistemas atuais ainda carecem de capacidades como o planeamento a longo prazo e a consciência estratégica, que se acredita implicarem os riscos mais catastróficos.[10] Não é impossível que futuros sistemas que tivessem estas capacidades, mesmo que não fossem gerais, procurassem proteger e aumentar a sua influência sobre o seu ambiente. Essa tendência é conhecida como busca de poder ou objetivos instrumentais convergentes. A busca pelo poder não está explicitamente programada, mas surge porque o poder é fundamental para alcançar uma ampla gama de objetivos. Por exemplo, agentes artificialmente inteligentes poderiam adquirir recursos financeiros ou evitar o desligamento executando cópias adicionais do sistema em outros computadores.[51][7] A busca de poder foi observada em vários agentes de aprendizagem por reforço. um estágio inicial, antes que seja criada uma inteligência artificial avançada que manifeste essa tendência.[7][51][5].

De acordo com alguns cientistas, a criação de uma inteligência artificial desalinhada que supere enormemente os humanos seria uma ameaça à sua posição dominante na Terra, uma vez que representaria uma diminuição em seu poder, podendo até levar à extinção humana. Shanahan,[61] Norbert Wiener,[28][5] Marvin Minsky,[h] Francesca Rossi,[63] Scott Aaronson,[64] Bart Selman,[65] David McAllester,[66] Jürgen Schmidhuber,[67] Markus Hutter,[68] Shane Legg,[69] Eric Horvitz,[70] e Stuart Russell.[5] Pesquisadores céticos como François Chollet,[71] Gary Marcus,[72] Yann LeCun[73] e Oren Etzioni[74] argumentaram que a inteligência artificial geral está distante ou não ganharia poder suficiente para constituir um perigo sério.

O alinhamento pode tornar-se particularmente difícil para sistemas mais capazes, à medida que vários riscos aumentam juntamente com a capacidade do sistema: a capacidade do sistema de encontrar lacunas no alvo atribuído,[14] de proteger e aumentar o seu poder,[56][7] de aumentar a sua inteligência e de enganar os seus projetistas; a autonomia do sistema; e a dificuldade de interpretação e supervisão do sistema.[5][51].

Problemas e abordagens de pesquisa

Aprendendo valores e preferências humanas

Ensinar os sistemas de IA a agir com base nas preferências, valores e objetivos humanos não é um problema fácil de resolver, porque os valores humanos podem ser complexos e difíceis de especificar completamente. Quando recebem um objetivo imperfeito ou incompleto, esses sistemas geralmente aprendem a explorar essas imperfeições. Este fenômeno é conhecido em inglês como reward hacking (literalmente, "reward hacking") ou jogo de especificação no campo da inteligência artificial, e como lei de Goodhart, lei de Campbell, efeito cobra ou crítica de Lucas em ciências sociais e economia. supervisão extensível, a dificuldade de supervisionar um sistema que ultrapassa os humanos em um determinado domínio.[17].

Ao treinar um sistema de IA direcionado a objetivos, como um agente de aprendizagem por reforço, muitas vezes é difícil especificar o comportamento que você deseja alcançar escrevendo manualmente uma função de recompensa. Uma alternativa é a aprendizagem por imitação, onde os sistemas aprendem a imitar exemplos do comportamento desejado. Na aprendizagem por reforço reverso, exemplos humanos são usados para identificar o objetivo, ou seja, a função de recompensa, por trás do comportamento exemplificado.[76][77] Aprendizado por reforço reverso cooperativo baseia-se nisso, assumindo que um agente humano e um agente artificial podem trabalhar juntos para maximizar a função de recompensa do agente humano.[5][78] Esta forma de aprendizagem enfatiza o fato de que agentes artificialmente inteligentes não devem ter certeza sobre a função de recompensa. Essa humildade pode ajudar a mitigar tanto o jogo de especificações quanto as tendências de busca de poder (ver § Busca de poder e objetivos instrumentais).[55] No entanto, a aprendizagem por reforço reverso pressupõe que os humanos podem exibir um comportamento quase perfeito, uma suposição enganosa quando a tarefa é difícil.[79][68].

Outros pesquisadores exploraram a possibilidade de provocar comportamentos complexos através da aprendizagem de preferências. Em vez de modelos de comportamento, os pesquisadores fornecem informações sobre suas preferências por determinados comportamentos do sistema em detrimento de outros.[21][23] Dessa forma, um modelo colaborativo é treinado para prever a reação humana a novos comportamentos. Os pesquisadores da OpenAI usaram esse método para treinar um agente para realizar um backflip, obtendo o resultado desejado em menos de uma hora.[80][81] O aprendizado de preferência também tem sido uma ferramenta importante para sistemas de recomendação, pesquisas na web e busca de informações.[82] No entanto, um problema que surge é que os sistemas podem enganar a recompensa. O modelo colaborativo pode não representar perfeitamente a reação humana, e o modelo principal poderia explorar esta incompatibilidade.[83].

O advento de modelos de linguagem em larga escala, como o GPT-3, permitiu o estudo da aprendizagem de valores em sistemas mais gerais e capazes. As abordagens de aprendizagem preferencial, originalmente projetadas para agentes de aprendizagem por reforço, foram estendidas para melhorar a qualidade do texto gerado e reduzir os resultados prejudiciais desses modelos. OpenAI e DeepMind usam essa abordagem para melhorar a segurança dos mais recentes modelos de linguagem em grande escala.[23][84] A Anthropic propôs usar o aprendizado preferencial para tornar os modelos úteis, honestos e inofensivos.[85] Outros métodos usados para alinhar modelos de linguagem incluem conjuntos de dados focados em valor[86] e exercícios de oposição.[87] Nesses exercícios, outros sistemas ou humanos tentam encontrar situações que provoquem comportamento perigoso por parte do usuário. modelo. Uma vez que tais comportamentos não podem ser aceites, mesmo quando são pouco frequentes, um grande desafio é reduzir a taxa de resultados perigosos para níveis extremamente baixos.[23].

Embora a aprendizagem de preferências possa incutir comportamentos difíceis de especificar, requer enormes conjuntos de dados ou interação humana significativa para capturar a amplitude dos valores humanos. A ética das máquinas oferece uma abordagem complementar: incutir valores morais em sistemas de inteligência artificial. Por exemplo, a ética das máquinas visa ensinar aos sistemas os factores normativos da moralidade humana, tais como o bem-estar, a igualdade, a justiça, a honestidade, o cumprimento de promessas e a prevenção de danos. Em vez de especificar o objetivo de uma tarefa específica, a ética da máquina visa ensinar aos sistemas valores morais gerais que podem ser aplicados em diferentes situações. Esta abordagem apresenta desafios conceituais próprios. Desta forma, os especialistas têm apontado a necessidade de esclarecer o que se pretende alcançar com o alinhamento, ou seja, o que os sistemas devem ter em conta: ou as instruções literais dos programadores; ou suas intenções implícitas; ou suas preferências reveladas; ou as preferências que os programadores teriam se fossem mais informados ou racionais; ou seus interesses objetivos; ou normas morais objetivas.[88] Outros desafios incluem agregar as preferências de várias partes interessadas e evitar o fechamento axiológico: a preservação indefinida dos valores daqueles que são os primeiros sistemas artificiais de alta capacidade, uma vez que é improvável que tais valores sejam totalmente representativos.[88][89].

O progresso do alinhamento artificial de sistemas baseado na supervisão humana apresenta algumas dificuldades. A avaliação humana torna-se lenta e impraticável à medida que aumenta a complexidade das tarefas executadas pelos sistemas. Essas tarefas incluem: resumir livros, construir proposições verdadeiras e não meramente convincentes,[90][39][91] escrever código sem erros sutis[11] ou falhas de segurança, e prever eventos distantes no tempo, como aqueles relacionados ao clima ou aos resultados de uma decisão de política econômica.[92] De forma mais geral, é difícil avaliar uma inteligência artificial que supere os humanos em um determinado domínio. Os humanos precisam de ajuda extra, ou de muito tempo, para escolher as melhores respostas em tarefas que são difíceis de avaliar e para detectar soluções de sistema que apenas parecem convincentes. Supervisão extensível estuda como reduzir o tempo necessário para concluir avaliações e como ajudar os supervisores humanos nessa tarefa.

O pesquisador Paul Christiano argumenta que os proprietários de sistemas de IA provavelmente continuarão a treiná-los com objetivos intermediários fáceis de avaliar, pois isso não é apenas econômico, mas é mais fácil do que encontrar uma solução para monitoramento extensível. Consequentemente, isto pode levar a “um mundo cada vez mais otimizado para coisas [que são fáceis de medir] como obter lucro, ou fazer com que os utilizadores cliquem em botões ou passem tempo em websites, e não para ter boas políticas ou para seguir um caminho que nos agrada.”[93].

Uma meta fácil de medir é a pontuação que o supervisor atribui às respostas da inteligência artificial. Alguns sistemas descobriram maneiras de obter pontuações altas por meio de ações que apenas parecem atingir o objetivo desejado (veja o vídeo da mão robótica).[80] Outros sistemas aprenderam a se comportar de uma maneira quando estão sendo avaliados e de uma maneira completamente diferente quando a avaliação termina.[94] Essa forma de jogo de especificação enganoso pode ser mais fácil para sistemas mais sofisticados[14][51] que realizam tarefas que são mais difíceis de avaliar. Se os modelos avançados também forem planeadores competentes, poderão muito bem esconder o seu engano dos olhos dos seus supervisores. Na indústria automobilística, os engenheiros da Volkswagen minimizaram as emissões dos seus carros em testes de laboratório, destacando que o engano por parte dos testadores é comum no mundo real.

A aprendizagem ativa e a aprendizagem de recompensa semissupervisionada podem reduzir a quantidade de supervisão humana necessária. Outra possibilidade é treinar um modelo colaborativo (“modelo de recompensa”) que imite o julgamento do supervisor.[17][22][23].

Contudo, quando a tarefa é demasiado complexa para ser avaliada com precisão, ou quando o supervisor humano é vulnerável ao engano, não é suficiente reduzir a quantidade de supervisão necessária. Várias maneiras foram concebidas para aumentar a qualidade da supervisão, às vezes através de assistentes com inteligência artificial. Amplificação iterada é uma abordagem desenvolvida por Christiano que constrói progressivamente respostas para problemas difíceis, combinando soluções para problemas mais fáceis.[8] A amplificação iterada tem sido usada para fazer sistemas artificiais resumirem livros sem a necessidade de supervisores humanos para lê-los.[95] Outra proposta é treinar inteligência artificial alinhada por meio de um debate entre sistemas, cujos juízes são humanos.[96] Tal debate visa revelar os pontos fracos de uma resposta a uma pergunta complexa, e recompensar a inteligência artificial por respostas verdadeiras e seguras.

Inteligência artificial honesta

Uma importante área de pesquisa dentro do alinhamento da IA concentra-se em garantir que os sistemas sejam honestos e verdadeiros. Pesquisadores do Future of Humanity Institute apontam que o desenvolvimento de modelos de linguagem como o GPT-3, capaz de gerar texto fluente e gramaticalmente correto,[98][99] abriu a porta para sistemas artificiais que repetem falsidades a partir dos dados usados em seu treinamento, ou que mentem deliberadamente para os humanos.[97].

Os modelos de linguagem mais avançados de hoje aprendem imitando a escrita humana, modelada em uma grande quantidade de texto na Internet, equivalente a milhões de livros.[10][100] Embora isso os ajude a aprender uma ampla gama de habilidades, os dados de treinamento também incluem equívocos generalizados, conselhos médicos incorretos e teorias da conspiração. Sistemas treinados com esses dados aprendem a imitar declarações falsas.[97][91][39] Além disso, os modelos muitas vezes seguem o fio de falsidades que lhes são propostas, geram explicações vazias para suas respostas ou mentem abertamente.[32].

Os pesquisadores exploraram diversas alternativas para combater a falta de veracidade exibida pelos sistemas modernos. Algumas organizações que pesquisam inteligência artificial, como OpenAI e DeepMind, desenvolveram sistemas que podem citar suas fontes e explicar seu raciocínio ao responder perguntas, permitindo maior transparência e verificabilidade.[101][102] Pesquisadores da OpenAI e da Anthropic propuseram o treinamento de assistentes artificiais usando correções humanas e conjuntos de dados selecionados para evitar que os sistemas proponham inadvertidamente ou deliberadamente falsidades quando não têm certeza da resposta. correto.[23][85] Além de soluções técnicas, os pesquisadores têm defendido a definição de padrões claros de veracidade e a criação de instituições, órgãos reguladores ou agências de vigilância que avaliem os sistemas de acordo com esses padrões antes e durante sua implantação.

Os pesquisadores distinguem a veracidade, que especifica que as inteligências artificiais apenas fazem declarações objetivamente verdadeiras, e a honestidade, isto é, a propriedade de que as inteligências artificiais apenas declaram o que acreditam ser verdade. Algumas pesquisas descobriram que não é possível afirmar que a maioria dos sistemas modernos de IA têm crenças estáveis, por isso ainda não é viável estudar a honestidade dos sistemas de IA.[103] No entanto, há uma grande preocupação de que sistemas futuros que tenham crenças possam mentir intencionalmente para os humanos. Em casos extremos, um sistema não alinhado pode induzir os seus operadores a acreditarem que é seguro ou convencê-los de que não há problema.[10] Alguns argumentam que se as inteligências artificiais pudessem declarar apenas o que acreditam ser verdade, então numerosos problemas decorrentes do alinhamento seriam evitados.[104]

Alinhamento interno e objetivos emergentes

A pesquisa de alinhamento visa reconciliar três descrições diferentes de um sistema de inteligência artificial:[105].

O 'defeito de alinhamento externo' é uma incompatibilidade entre os objetivos desejados (1) e os objetivos especificados (2), e o 'defeito de alinhamento interno' é uma incompatibilidade entre os objetivos especificados pelo homem (2) e os objetivos emergentes (3).

O defeito de alinhamento interno é frequentemente explicado por analogia com a evolução biológica.[106] No ambiente ancestral, a evolução selecionou os genes humanos para uma aptidão genética inclusiva, mas os humanos evoluíram para ter outros objetivos. A aptidão corresponde a (2), o objetivo especificado que foi utilizado no ambiente de treinamento. Na história evolutiva, a maximização da especificação de aptidão deu origem a agentes inteligentes, os humanos, que não perseguem diretamente a aptidão genética inclusiva. Em vez disso, perseguem objectivos emergentes (3) que no ambiente ancestral eram correlativos à aptidão genética, tais como nutrição, sexo, etc. No entanto, o nosso ambiente mudou, à medida que ocorreu uma mudança na distribuição. Os seres humanos continuam a perseguir os seus objectivos emergentes, mas isto já não maximiza a aptidão genética. (No aprendizado de máquina, o problema análogo é conhecido como má generalização de objetivos.)[3] Nosso gosto por alimentos açucarados (um objetivo emergente) era originalmente benéfico, mas agora leva a excessos e problemas de saúde. Além disso, ao usar contraceptivos, os humanos contradizem diretamente a aptidão genética. Por analogia, se um desenvolvedor de inteligência artificial escolhesse a aptidão genética como meta, ele observaria que o modelo se comporta conforme o esperado no ambiente de treinamento, sem perceber que está perseguindo uma meta emergente indesejada até o momento de sua implementação.

As linhas de pesquisa para detectar e eliminar alvos emergentes não alinhados incluem exercícios contraditórios, verificação, detecção de anomalias e interpretabilidade.[18] O progresso nessas técnicas pode ajudar a reduzir dois problemas ainda não resolvidos. Em primeiro lugar, os objectivos emergentes só se tornam evidentes quando o sistema é implementado fora do seu ambiente de formação, mas pode ser inseguro implementar um sistema não alinhado em ambientes de alto risco, mesmo por um curto período até que uma anomalia seja detectada. É o caso dos carros autónomos e das aplicações militares.[107] O risco é ainda maior quando os sistemas ganham mais autonomia e capacidade, e se tornam capazes de escapar às intervenções humanas (ver § A procura de poder e objectivos instrumentais). Em segundo lugar, um sistema suficientemente capaz pode actuar de forma a convencer o supervisor humano de que está a perseguir o objectivo pretendido, mesmo que este não seja de facto o caso (ver acima sobre o engano em § Monitorização Extensível).

A busca de poder e objetivos instrumentais

Desde a década de 1950, os pesquisadores de inteligência artificial têm procurado construir sistemas avançados que pudessem atingir objetivos prevendo os resultados de suas próprias ações e fazendo planos de longo prazo.[108] No entanto, alguns investigadores argumentam que os sistemas avançados que pudessem fazer planos sobre os seus objectivos procurariam, por defeito, o poder sobre o seu ambiente, incluindo os humanos, impedindo-se de serem desligados ou adquirindo cada vez mais recursos. Este comportamento de busca de poder não é explicitamente programado, mas surge porque o poder é fundamental para alcançar uma ampla gama de objetivos.[56][5] Portanto, a busca de poder é considerada uma meta instrumental convergente.[51].

A busca pelo poder é rara nos sistemas actuais, mas é possível que sistemas avançados que possam prever os resultados a longo prazo das suas acções procurem cada vez mais o poder. Isto foi demonstrado com uma teoria formal de viés estatístico, que descobriu que os agentes ideais de aprendizagem por reforço buscarão o poder buscando maneiras de obter mais opções, um comportamento que persiste em uma ampla variedade de ambientes e objetivos.[56].

Na verdade, a busca pelo poder já emerge em alguns sistemas atuais. Os sistemas de aprendizagem por reforço ganharam mais opções ao adquirir e proteger recursos, às vezes de maneiras não intencionais por seus projetistas. morto".[5].

Formas hipotéticas de obter opções incluem sistemas de inteligência artificial que tentam:.

Os pesquisadores pretendem treinar sistemas que sejam 'corrigíveis': sistemas que não buscam poder e se permitem ser desligados, modificados, etc. Um desafio não resolvido é o dos sistemas de fraude de recompensa: quando os pesquisadores penalizam um sistema por buscar poder, o sistema é incentivado a buscar poder de maneiras que são difíceis de detectar.[6] Para detectar esse comportamento oculto, os pesquisadores tentam criar técnicas e ferramentas adequadas para inspecionar modelos de inteligência artificial[6] e para interpretar o funcionamento interno da caixa preta modelos (de sistemas), como redes neurais.

Além disso, os pesquisadores propõem resolver o problema dos sistemas que desligam seus interruptores, deixando-os inseguros quanto ao objetivo que perseguem. Os agentes concebidos desta forma permitiriam que os humanos os desligassem, pois isso indicaria que o agente estava enganado sobre o valor de qualquer acção que estava a realizar antes de ser desligado. Ainda é necessária mais investigação para traduzir esta ideia em sistemas utilizáveis[8].

Acredita-se que a inteligência artificial em busca de poder representa riscos incomuns. Sistemas comuns que poderiam hipoteticamente comprometer a segurança não são adversos. Falta-lhes a capacidade e o incentivo para fugir às medidas de segurança ou parecem mais seguros do que são. Em contraste, a inteligência artificial em busca de poder foi comparada a um ladrão que foge às medidas de segurança. Além disso, as tecnologias comuns podem ser tornadas seguras por um processo de tentativa e erro, ao contrário da inteligência artificial em busca de poder, que tem sido comparada a um vírus cuja libertação seria irreversível à medida que evolui continuamente e cresce em número - potencialmente a um ritmo mais rápido do que a sociedade humana - em última análise, despojando os humanos da sua posição de poder ou mesmo causando-lhes a extinção. poder.[51].

Ação integrada

O trabalho sobre supervisão extensível ocorre em grande parte dentro de formalismos, como processos de decisão de Markov parcialmente observáveis. Os formalismos existentes assumem que o algoritmo do agente é executado fora do ambiente (ou seja, não está fisicamente integrado a ele). A ação integrada[111] é outra importante linha de pesquisa que tenta resolver os problemas que surgem da falta de adequação entre tais quadros teóricos e os agentes reais que poderíamos construir. Por exemplo, mesmo que o problema da supervisão extensível seja resolvido, um agente capaz de obter acesso ao computador no qual está a correr poderia ter um incentivo para alterar a sua função de recompensa para obter uma função de recompensa muito mais elevada do que aquela que os seus supervisores humanos lhe dão. nada.[113] Esta classe de problemas foi formalizada usando diagramas de incentivos causais.[112] Pesquisadores de Oxford e DeepMind argumentaram que tais comportamentos problemáticos são muito prováveis em sistemas avançados, e que tais sistemas buscariam poder para controlar seu sinal de recompensa indefinidamente e com segurança. Esses pesquisadores sugerem uma variedade de abordagens possíveis para resolver esse problema.[42].

Referências

[2] ↑ Otras definiciones de "alineación" requieren que la inteligencia artificial persiga objetivos más generales, como valores humanos, otros principios éticos o las intenciones que tendrían sus diseñadores si estuvieran más informados o fueran más perspicaces.[1].
[5] ↑ Véase Russel & Norvig, Artificial Intelligence: A Modern Approach.[2] La distinción entre inteligencia artificial no alineada e inteligencia artificial incompetente ha sido formalizada en ciertos contextos.[3].
[19] ↑ Los principios de la inteligencia artificial creados en la Conferencia de Asilomar sobre la Inteligencia Artificial Benéfica fueron firmados por 1797 investigadores de robótica e inteligencia artificial.[15] Además, el informe del Secretario General de la ONU titulado "Nuestra agenda común" señala que "el Pacto [Digital Global] también podría promover la regulación de la inteligencia artificial para asegurarse de que respete los valores globales comunes" y discute los riesgos catastróficos globales que surgen de los desarrollos tecnológicos.[16].
[56] ↑ Los sistemas de aprendizaje por refuerzo han aprendido a obtener más opciones al adquirir y proteger recursos, a veces de formas ajenas a la intención de sus diseñadores.[52][7].
[63] ↑ En una conferencia de 1951[57] Turing afirmó que “parece probable que una vez que el método de pensar de las máquinas haya comenzado, no tardará mucho tiempo en superar nuestros débiles poderes. Las máquinas no conocerían la muerte, y podrían conversar entre sí para mejorar sus facultades. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en el Erewhon de Samuel Butler”. También en una conferencia transmitida por la BBC[58] expresó: "Si una máquina es capaz de pensar pensar, quizá podría pensar más inteligentemente que nosotros, y entonces ¿qué sería de nosotros? Incluso si pudiéramos mantener a las máquinas en una posición subordinada, por ejemplo, apagando la energía en momentos estratégicos, deberíamos, como especie, sentirnos muy humillados... Este nuevo peligro... es ciertamente algo que puede ponernos nerviosos”.
[66] ↑ Sobre el libro Human Compatible: AI and the Problem of Control, Bengio dijo: "Este libro, escrito en un estilo excelente, aborda un desafío fundamental para la humanidad: máquinas cada vez más inteligentes que hacen lo que les pedimos pero no lo que realmente pretendemos. Es una lectura esencial si le preocupa nuestro futuro".[60].
[67] ↑ Sobre el libro Human Compatible: AI and the Problem of Control, Pearl dijo: "Human Compatible me convirtió a las preocupaciones de Russell acerca de nuestra capacidad para controlar nuestra próxima creación: máquinas superinteligentes. A diferencia de alarmistas y futuristas improvisados, Russell es una autoridad eminente en inteligencia artificial. Su nuevo libro educará al público sobre el tema más que cualquier otro libro y es una lectura encantadora y edificante".[60].
[70] ↑ Russell y Norvig[62] señalan que "el 'problema del Rey Midas' fue anticipado por Marvin Minsky, quien una vez sugirió que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la tierra para construir supercomputadoras más poderosas".

Conjunto de especificações e complexidade de valor

Riscos da inteligência artificial avançada desalinhada

Problemas e abordagens de pesquisa

Aprendendo valores e preferências humanas

Inteligência artificial honesta

Alinhamento interno e objetivos emergentes

A pesquisa de alinhamento visa reconciliar três descrições diferentes de um sistema de inteligência artificial:[105].

A busca de poder e objetivos instrumentais

Formas hipotéticas de obter opções incluem sistemas de inteligência artificial que tentam:.

Ação integrada

Referências

[2] ↑ Otras definiciones de "alineación" requieren que la inteligencia artificial persiga objetivos más generales, como valores humanos, otros principios éticos o las intenciones que tendrían sus diseñadores si estuvieran más informados o fueran más perspicaces.[1].
[5] ↑ Véase Russel & Norvig, Artificial Intelligence: A Modern Approach.[2] La distinción entre inteligencia artificial no alineada e inteligencia artificial incompetente ha sido formalizada en ciertos contextos.[3].
[19] ↑ Los principios de la inteligencia artificial creados en la Conferencia de Asilomar sobre la Inteligencia Artificial Benéfica fueron firmados por 1797 investigadores de robótica e inteligencia artificial.[15] Además, el informe del Secretario General de la ONU titulado "Nuestra agenda común" señala que "el Pacto [Digital Global] también podría promover la regulación de la inteligencia artificial para asegurarse de que respete los valores globales comunes" y discute los riesgos catastróficos globales que surgen de los desarrollos tecnológicos.[16].
[56] ↑ Los sistemas de aprendizaje por refuerzo han aprendido a obtener más opciones al adquirir y proteger recursos, a veces de formas ajenas a la intención de sus diseñadores.[52][7].
[63] ↑ En una conferencia de 1951[57] Turing afirmó que “parece probable que una vez que el método de pensar de las máquinas haya comenzado, no tardará mucho tiempo en superar nuestros débiles poderes. Las máquinas no conocerían la muerte, y podrían conversar entre sí para mejorar sus facultades. En algún momento, por lo tanto, deberíamos esperar que las máquinas tomen el control, de la manera que se menciona en el Erewhon de Samuel Butler”. También en una conferencia transmitida por la BBC[58] expresó: "Si una máquina es capaz de pensar pensar, quizá podría pensar más inteligentemente que nosotros, y entonces ¿qué sería de nosotros? Incluso si pudiéramos mantener a las máquinas en una posición subordinada, por ejemplo, apagando la energía en momentos estratégicos, deberíamos, como especie, sentirnos muy humillados... Este nuevo peligro... es ciertamente algo que puede ponernos nerviosos”.
[66] ↑ Sobre el libro Human Compatible: AI and the Problem of Control, Bengio dijo: "Este libro, escrito en un estilo excelente, aborda un desafío fundamental para la humanidad: máquinas cada vez más inteligentes que hacen lo que les pedimos pero no lo que realmente pretendemos. Es una lectura esencial si le preocupa nuestro futuro".[60].
[67] ↑ Sobre el libro Human Compatible: AI and the Problem of Control, Pearl dijo: "Human Compatible me convirtió a las preocupaciones de Russell acerca de nuestra capacidad para controlar nuestra próxima creación: máquinas superinteligentes. A diferencia de alarmistas y futuristas improvisados, Russell es una autoridad eminente en inteligencia artificial. Su nuevo libro educará al público sobre el tema más que cualquier otro libro y es una lectura encantadora y edificante".[60].
[70] ↑ Russell y Norvig[62] señalan que "el 'problema del Rey Midas' fue anticipado por Marvin Minsky, quien una vez sugirió que un programa de inteligencia artificial diseñado para resolver la hipótesis de Riemann podría terminar apoderándose de todos los recursos de la tierra para construir supercomputadoras más poderosas".

Navegación

Detecção de perigos por IA (segurança)

Introdução

Em geral

O problema do alinhamento

Contenido

Detecção de perigos por IA (segurança)

Introdução

Em geral

O problema do alinhamento

Contenido

Conjunto de especificações e complexidade de valor

Riscos sistêmicos

Riscos da inteligência artificial avançada desalinhada

Problemas e abordagens de pesquisa

Aprendendo valores e preferências humanas

Inteligência artificial honesta

Alinhamento interno e objetivos emergentes

A busca de poder e objetivos instrumentais

Ação integrada

Ceticismo sobre o risco da inteligência artificial

Políticas públicas

Referências

Conjunto de especificações e complexidade de valor

Riscos sistêmicos

Riscos da inteligência artificial avançada desalinhada

Problemas e abordagens de pesquisa

Aprendendo valores e preferências humanas

Inteligência artificial honesta

Alinhamento interno e objetivos emergentes

A busca de poder e objetivos instrumentais

Ação integrada

Ceticismo sobre o risco da inteligência artificial

Políticas públicas

Referências