Especificação de jogos: o outro lado da engenhosidade da IA

Nó Fonte: 747318

À primeira vista, esses tipos de exemplos podem parecer divertidos, mas menos interessantes e irrelevantes para a implantação de agentes no mundo real, onde não há bugs de simulador. No entanto, o problema subjacente não é o bug em si, mas uma falha de abstração que pode ser explorada pelo agente. No exemplo acima, a tarefa do robô foi especificada incorretamente devido a suposições incorretas sobre a física do simulador. Analogamente, uma tarefa de otimização de tráfego do mundo real pode ser especificada incorretamente ao assumir incorretamente que a infraestrutura de roteamento de tráfego não tem bugs de software ou vulnerabilidades de segurança que um agente suficientemente inteligente poderia descobrir. Essas suposições não precisam ser feitas explicitamente - mais provavelmente, são detalhes que simplesmente nunca ocorreram ao designer. E, à medida que as tarefas se tornam muito complexas para considerar todos os detalhes, é mais provável que os pesquisadores introduzam suposições incorretas durante o projeto de especificações. Isso levanta a questão: é possível projetar arquiteturas de agente que corrijam essas suposições falsas em vez de jogá-las?

Uma suposição comumente feita na especificação da tarefa é que a especificação da tarefa não pode ser afetada pelas ações do agente. Isso é verdade para um agente em execução em um simulador em área restrita, mas não para um agente que atua no mundo real. Qualquer especificação de tarefa tem uma manifestação física: uma função de recompensa armazenada em um computador ou preferências armazenadas na cabeça de um humano. Um agente implantado no mundo real pode potencialmente manipular essas representações do objetivo, criando um adulteração de recompensa problema. Para o nosso sistema de otimização de tráfego hipotético, não há distinção clara entre satisfazer as preferências do usuário (por exemplo, dando instruções úteis), e influenciando usuários ter preferências que são mais fáceis de satisfazer (por exemplo, cutucando-os para escolher destinos que são mais fáceis de alcançar). O primeiro satisfaz o objetivo, enquanto o último manipula a representação do objetivo no mundo (as preferências do usuário), e ambos resultam em alta recompensa para o sistema de IA. Como outro exemplo mais extremo, um sistema de IA muito avançado poderia sequestrar o computador no qual está sendo executado, configurando manualmente seu sinal de recompensa para um valor alto.

Fonte: https://deepmind.com/blog/article/Specification-gaming-the-flip-side-of-AI-ingenuity

Carimbo de hora:

Mais de Deep Mind - última postagem