Problemas e abordagens de pesquisa
Aprendendo valores e preferências humanas
Ensinar os sistemas de IA a agir com base nas preferências, valores e objetivos humanos não é um problema fácil de resolver, porque os valores humanos podem ser complexos e difíceis de especificar completamente. Quando recebem um objetivo imperfeito ou incompleto, esses sistemas geralmente aprendem a explorar essas imperfeições. Este fenômeno é conhecido em inglês como reward hacking (literalmente, "reward hacking") ou jogo de especificação no campo da inteligência artificial, e como lei de Goodhart, lei de Campbell, efeito cobra ou crítica de Lucas em ciências sociais e economia. supervisão extensível, a dificuldade de supervisionar um sistema que ultrapassa os humanos em um determinado domínio.[17].
Ao treinar um sistema de IA direcionado a objetivos, como um agente de aprendizagem por reforço, muitas vezes é difícil especificar o comportamento que você deseja alcançar escrevendo manualmente uma função de recompensa. Uma alternativa é a aprendizagem por imitação, onde os sistemas aprendem a imitar exemplos do comportamento desejado. Na aprendizagem por reforço reverso, exemplos humanos são usados para identificar o objetivo, ou seja, a função de recompensa, por trás do comportamento exemplificado.[76][77] Aprendizado por reforço reverso cooperativo baseia-se nisso, assumindo que um agente humano e um agente artificial podem trabalhar juntos para maximizar a função de recompensa do agente humano.[5][78] Esta forma de aprendizagem enfatiza o fato de que agentes artificialmente inteligentes não devem ter certeza sobre a função de recompensa. Essa humildade pode ajudar a mitigar tanto o jogo de especificações quanto as tendências de busca de poder (ver § Busca de poder e objetivos instrumentais).[55] No entanto, a aprendizagem por reforço reverso pressupõe que os humanos podem exibir um comportamento quase perfeito, uma suposição enganosa quando a tarefa é difícil.[79][68].
Outros pesquisadores exploraram a possibilidade de provocar comportamentos complexos através da aprendizagem de preferências. Em vez de modelos de comportamento, os pesquisadores fornecem informações sobre suas preferências por determinados comportamentos do sistema em detrimento de outros.[21][23] Dessa forma, um modelo colaborativo é treinado para prever a reação humana a novos comportamentos. Os pesquisadores da OpenAI usaram esse método para treinar um agente para realizar um backflip, obtendo o resultado desejado em menos de uma hora.[80][81] O aprendizado de preferência também tem sido uma ferramenta importante para sistemas de recomendação, pesquisas na web e busca de informações.[82] No entanto, um problema que surge é que os sistemas podem enganar a recompensa. O modelo colaborativo pode não representar perfeitamente a reação humana, e o modelo principal poderia explorar esta incompatibilidade.[83].
O advento de modelos de linguagem em larga escala, como o GPT-3, permitiu o estudo da aprendizagem de valores em sistemas mais gerais e capazes. As abordagens de aprendizagem preferencial, originalmente projetadas para agentes de aprendizagem por reforço, foram estendidas para melhorar a qualidade do texto gerado e reduzir os resultados prejudiciais desses modelos. OpenAI e DeepMind usam essa abordagem para melhorar a segurança dos mais recentes modelos de linguagem em grande escala.[23][84] A Anthropic propôs usar o aprendizado preferencial para tornar os modelos úteis, honestos e inofensivos.[85] Outros métodos usados para alinhar modelos de linguagem incluem conjuntos de dados focados em valor[86] e exercícios de oposição.[87] Nesses exercícios, outros sistemas ou humanos tentam encontrar situações que provoquem comportamento perigoso por parte do usuário. modelo. Uma vez que tais comportamentos não podem ser aceites, mesmo quando são pouco frequentes, um grande desafio é reduzir a taxa de resultados perigosos para níveis extremamente baixos.[23].
Embora a aprendizagem de preferências possa incutir comportamentos difíceis de especificar, requer enormes conjuntos de dados ou interação humana significativa para capturar a amplitude dos valores humanos. A ética das máquinas oferece uma abordagem complementar: incutir valores morais em sistemas de inteligência artificial. Por exemplo, a ética das máquinas visa ensinar aos sistemas os factores normativos da moralidade humana, tais como o bem-estar, a igualdade, a justiça, a honestidade, o cumprimento de promessas e a prevenção de danos. Em vez de especificar o objetivo de uma tarefa específica, a ética da máquina visa ensinar aos sistemas valores morais gerais que podem ser aplicados em diferentes situações. Esta abordagem apresenta desafios conceituais próprios. Desta forma, os especialistas têm apontado a necessidade de esclarecer o que se pretende alcançar com o alinhamento, ou seja, o que os sistemas devem ter em conta: ou as instruções literais dos programadores; ou suas intenções implícitas; ou suas preferências reveladas; ou as preferências que os programadores teriam se fossem mais informados ou racionais; ou seus interesses objetivos; ou normas morais objetivas.[88] Outros desafios incluem agregar as preferências de várias partes interessadas e evitar o fechamento axiológico: a preservação indefinida dos valores daqueles que são os primeiros sistemas artificiais de alta capacidade, uma vez que é improvável que tais valores sejam totalmente representativos.[88][89].
O progresso do alinhamento artificial de sistemas baseado na supervisão humana apresenta algumas dificuldades. A avaliação humana torna-se lenta e impraticável à medida que aumenta a complexidade das tarefas executadas pelos sistemas. Essas tarefas incluem: resumir livros, construir proposições verdadeiras e não meramente convincentes,[90][39][91] escrever código sem erros sutis[11] ou falhas de segurança, e prever eventos distantes no tempo, como aqueles relacionados ao clima ou aos resultados de uma decisão de política econômica.[92] De forma mais geral, é difícil avaliar uma inteligência artificial que supere os humanos em um determinado domínio. Os humanos precisam de ajuda extra, ou de muito tempo, para escolher as melhores respostas em tarefas que são difíceis de avaliar e para detectar soluções de sistema que apenas parecem convincentes. Supervisão extensível estuda como reduzir o tempo necessário para concluir avaliações e como ajudar os supervisores humanos nessa tarefa.
O pesquisador Paul Christiano argumenta que os proprietários de sistemas de IA provavelmente continuarão a treiná-los com objetivos intermediários fáceis de avaliar, pois isso não é apenas econômico, mas é mais fácil do que encontrar uma solução para monitoramento extensível. Consequentemente, isto pode levar a “um mundo cada vez mais otimizado para coisas [que são fáceis de medir] como obter lucro, ou fazer com que os utilizadores cliquem em botões ou passem tempo em websites, e não para ter boas políticas ou para seguir um caminho que nos agrada.”[93].
Uma meta fácil de medir é a pontuação que o supervisor atribui às respostas da inteligência artificial. Alguns sistemas descobriram maneiras de obter pontuações altas por meio de ações que apenas parecem atingir o objetivo desejado (veja o vídeo da mão robótica).[80] Outros sistemas aprenderam a se comportar de uma maneira quando estão sendo avaliados e de uma maneira completamente diferente quando a avaliação termina.[94] Essa forma de jogo de especificação enganoso pode ser mais fácil para sistemas mais sofisticados[14][51] que realizam tarefas que são mais difíceis de avaliar. Se os modelos avançados também forem planeadores competentes, poderão muito bem esconder o seu engano dos olhos dos seus supervisores. Na indústria automobilística, os engenheiros da Volkswagen minimizaram as emissões dos seus carros em testes de laboratório, destacando que o engano por parte dos testadores é comum no mundo real.
A aprendizagem ativa e a aprendizagem de recompensa semissupervisionada podem reduzir a quantidade de supervisão humana necessária. Outra possibilidade é treinar um modelo colaborativo (“modelo de recompensa”) que imite o julgamento do supervisor.[17][22][23].
Contudo, quando a tarefa é demasiado complexa para ser avaliada com precisão, ou quando o supervisor humano é vulnerável ao engano, não é suficiente reduzir a quantidade de supervisão necessária. Várias maneiras foram concebidas para aumentar a qualidade da supervisão, às vezes através de assistentes com inteligência artificial. Amplificação iterada é uma abordagem desenvolvida por Christiano que constrói progressivamente respostas para problemas difíceis, combinando soluções para problemas mais fáceis.[8] A amplificação iterada tem sido usada para fazer sistemas artificiais resumirem livros sem a necessidade de supervisores humanos para lê-los.[95] Outra proposta é treinar inteligência artificial alinhada por meio de um debate entre sistemas, cujos juízes são humanos.[96] Tal debate visa revelar os pontos fracos de uma resposta a uma pergunta complexa, e recompensar a inteligência artificial por respostas verdadeiras e seguras.
Inteligência artificial honesta
Uma importante área de pesquisa dentro do alinhamento da IA concentra-se em garantir que os sistemas sejam honestos e verdadeiros. Pesquisadores do Future of Humanity Institute apontam que o desenvolvimento de modelos de linguagem como o GPT-3, capaz de gerar texto fluente e gramaticalmente correto,[98][99] abriu a porta para sistemas artificiais que repetem falsidades a partir dos dados usados em seu treinamento, ou que mentem deliberadamente para os humanos.[97].
Os modelos de linguagem mais avançados de hoje aprendem imitando a escrita humana, modelada em uma grande quantidade de texto na Internet, equivalente a milhões de livros.[10][100] Embora isso os ajude a aprender uma ampla gama de habilidades, os dados de treinamento também incluem equívocos generalizados, conselhos médicos incorretos e teorias da conspiração. Sistemas treinados com esses dados aprendem a imitar declarações falsas.[97][91][39] Além disso, os modelos muitas vezes seguem o fio de falsidades que lhes são propostas, geram explicações vazias para suas respostas ou mentem abertamente.[32].
Os pesquisadores exploraram diversas alternativas para combater a falta de veracidade exibida pelos sistemas modernos. Algumas organizações que pesquisam inteligência artificial, como OpenAI e DeepMind, desenvolveram sistemas que podem citar suas fontes e explicar seu raciocínio ao responder perguntas, permitindo maior transparência e verificabilidade.[101][102] Pesquisadores da OpenAI e da Anthropic propuseram o treinamento de assistentes artificiais usando correções humanas e conjuntos de dados selecionados para evitar que os sistemas proponham inadvertidamente ou deliberadamente falsidades quando não têm certeza da resposta. correto.[23][85] Além de soluções técnicas, os pesquisadores têm defendido a definição de padrões claros de veracidade e a criação de instituições, órgãos reguladores ou agências de vigilância que avaliem os sistemas de acordo com esses padrões antes e durante sua implantação.
Os pesquisadores distinguem a veracidade, que especifica que as inteligências artificiais apenas fazem declarações objetivamente verdadeiras, e a honestidade, isto é, a propriedade de que as inteligências artificiais apenas declaram o que acreditam ser verdade. Algumas pesquisas descobriram que não é possível afirmar que a maioria dos sistemas modernos de IA têm crenças estáveis, por isso ainda não é viável estudar a honestidade dos sistemas de IA.[103] No entanto, há uma grande preocupação de que sistemas futuros que tenham crenças possam mentir intencionalmente para os humanos. Em casos extremos, um sistema não alinhado pode induzir os seus operadores a acreditarem que é seguro ou convencê-los de que não há problema.[10] Alguns argumentam que se as inteligências artificiais pudessem declarar apenas o que acreditam ser verdade, então numerosos problemas decorrentes do alinhamento seriam evitados.[104]
Alinhamento interno e objetivos emergentes
A pesquisa de alinhamento visa reconciliar três descrições diferentes de um sistema de inteligência artificial:[105].
O 'defeito de alinhamento externo' é uma incompatibilidade entre os objetivos desejados (1) e os objetivos especificados (2), e o 'defeito de alinhamento interno' é uma incompatibilidade entre os objetivos especificados pelo homem (2) e os objetivos emergentes (3).
O defeito de alinhamento interno é frequentemente explicado por analogia com a evolução biológica.[106] No ambiente ancestral, a evolução selecionou os genes humanos para uma aptidão genética inclusiva, mas os humanos evoluíram para ter outros objetivos. A aptidão corresponde a (2), o objetivo especificado que foi utilizado no ambiente de treinamento. Na história evolutiva, a maximização da especificação de aptidão deu origem a agentes inteligentes, os humanos, que não perseguem diretamente a aptidão genética inclusiva. Em vez disso, perseguem objectivos emergentes (3) que no ambiente ancestral eram correlativos à aptidão genética, tais como nutrição, sexo, etc. No entanto, o nosso ambiente mudou, à medida que ocorreu uma mudança na distribuição. Os seres humanos continuam a perseguir os seus objectivos emergentes, mas isto já não maximiza a aptidão genética. (No aprendizado de máquina, o problema análogo é conhecido como má generalização de objetivos.)[3] Nosso gosto por alimentos açucarados (um objetivo emergente) era originalmente benéfico, mas agora leva a excessos e problemas de saúde. Além disso, ao usar contraceptivos, os humanos contradizem diretamente a aptidão genética. Por analogia, se um desenvolvedor de inteligência artificial escolhesse a aptidão genética como meta, ele observaria que o modelo se comporta conforme o esperado no ambiente de treinamento, sem perceber que está perseguindo uma meta emergente indesejada até o momento de sua implementação.
As linhas de pesquisa para detectar e eliminar alvos emergentes não alinhados incluem exercícios contraditórios, verificação, detecção de anomalias e interpretabilidade.[18] O progresso nessas técnicas pode ajudar a reduzir dois problemas ainda não resolvidos. Em primeiro lugar, os objectivos emergentes só se tornam evidentes quando o sistema é implementado fora do seu ambiente de formação, mas pode ser inseguro implementar um sistema não alinhado em ambientes de alto risco, mesmo por um curto período até que uma anomalia seja detectada. É o caso dos carros autónomos e das aplicações militares.[107] O risco é ainda maior quando os sistemas ganham mais autonomia e capacidade, e se tornam capazes de escapar às intervenções humanas (ver § A procura de poder e objectivos instrumentais). Em segundo lugar, um sistema suficientemente capaz pode actuar de forma a convencer o supervisor humano de que está a perseguir o objectivo pretendido, mesmo que este não seja de facto o caso (ver acima sobre o engano em § Monitorização Extensível).
A busca de poder e objetivos instrumentais
Desde a década de 1950, os pesquisadores de inteligência artificial têm procurado construir sistemas avançados que pudessem atingir objetivos prevendo os resultados de suas próprias ações e fazendo planos de longo prazo.[108] No entanto, alguns investigadores argumentam que os sistemas avançados que pudessem fazer planos sobre os seus objectivos procurariam, por defeito, o poder sobre o seu ambiente, incluindo os humanos, impedindo-se de serem desligados ou adquirindo cada vez mais recursos. Este comportamento de busca de poder não é explicitamente programado, mas surge porque o poder é fundamental para alcançar uma ampla gama de objetivos.[56][5] Portanto, a busca de poder é considerada uma meta instrumental convergente.[51].
A busca pelo poder é rara nos sistemas actuais, mas é possível que sistemas avançados que possam prever os resultados a longo prazo das suas acções procurem cada vez mais o poder. Isto foi demonstrado com uma teoria formal de viés estatístico, que descobriu que os agentes ideais de aprendizagem por reforço buscarão o poder buscando maneiras de obter mais opções, um comportamento que persiste em uma ampla variedade de ambientes e objetivos.[56].
Na verdade, a busca pelo poder já emerge em alguns sistemas atuais. Os sistemas de aprendizagem por reforço ganharam mais opções ao adquirir e proteger recursos, às vezes de maneiras não intencionais por seus projetistas. morto".[5].
Formas hipotéticas de obter opções incluem sistemas de inteligência artificial que tentam:.
Os pesquisadores pretendem treinar sistemas que sejam 'corrigíveis': sistemas que não buscam poder e se permitem ser desligados, modificados, etc. Um desafio não resolvido é o dos sistemas de fraude de recompensa: quando os pesquisadores penalizam um sistema por buscar poder, o sistema é incentivado a buscar poder de maneiras que são difíceis de detectar.[6] Para detectar esse comportamento oculto, os pesquisadores tentam criar técnicas e ferramentas adequadas para inspecionar modelos de inteligência artificial[6] e para interpretar o funcionamento interno da caixa preta modelos (de sistemas), como redes neurais.
Além disso, os pesquisadores propõem resolver o problema dos sistemas que desligam seus interruptores, deixando-os inseguros quanto ao objetivo que perseguem. Os agentes concebidos desta forma permitiriam que os humanos os desligassem, pois isso indicaria que o agente estava enganado sobre o valor de qualquer acção que estava a realizar antes de ser desligado. Ainda é necessária mais investigação para traduzir esta ideia em sistemas utilizáveis[8].
Acredita-se que a inteligência artificial em busca de poder representa riscos incomuns. Sistemas comuns que poderiam hipoteticamente comprometer a segurança não são adversos. Falta-lhes a capacidade e o incentivo para fugir às medidas de segurança ou parecem mais seguros do que são. Em contraste, a inteligência artificial em busca de poder foi comparada a um ladrão que foge às medidas de segurança. Além disso, as tecnologias comuns podem ser tornadas seguras por um processo de tentativa e erro, ao contrário da inteligência artificial em busca de poder, que tem sido comparada a um vírus cuja libertação seria irreversível à medida que evolui continuamente e cresce em número - potencialmente a um ritmo mais rápido do que a sociedade humana - em última análise, despojando os humanos da sua posição de poder ou mesmo causando-lhes a extinção. poder.[51].
Ação integrada
O trabalho sobre supervisão extensível ocorre em grande parte dentro de formalismos, como processos de decisão de Markov parcialmente observáveis. Os formalismos existentes assumem que o algoritmo do agente é executado fora do ambiente (ou seja, não está fisicamente integrado a ele). A ação integrada[111] é outra importante linha de pesquisa que tenta resolver os problemas que surgem da falta de adequação entre tais quadros teóricos e os agentes reais que poderíamos construir. Por exemplo, mesmo que o problema da supervisão extensível seja resolvido, um agente capaz de obter acesso ao computador no qual está a correr poderia ter um incentivo para alterar a sua função de recompensa para obter uma função de recompensa muito mais elevada do que aquela que os seus supervisores humanos lhe dão. nada.[113] Esta classe de problemas foi formalizada usando diagramas de incentivos causais.[112] Pesquisadores de Oxford e DeepMind argumentaram que tais comportamentos problemáticos são muito prováveis em sistemas avançados, e que tais sistemas buscariam poder para controlar seu sinal de recompensa indefinidamente e com segurança. Esses pesquisadores sugerem uma variedade de abordagens possíveis para resolver esse problema.[42].