Categorias
Blog

Computação quântica e aprendizado por reforço estão unindo forças para tornar a IA mais rápida

O aprendizado por reforço profundo está tendo um momento de superstar.

Alimentando robôs mais inteligentes. Simulando redes neurais humanas. Derrubando médicos em diagnósticos médicos e esmagando os melhores jogadores da humanidade em Go e Atari. Embora longe de alcançar o pensamento flexível e rápido que vem naturalmente aos humanos, essa poderosa ideia de aprendizado de máquina parece imparável como um prenúncio de máquinas pensantes melhores.

Exceto que há um grande obstáculo: eles demoram uma eternidade para funcionar. Como o conceito por trás desses algoritmos é baseado em tentativa e erro, um “agente” de IA de aprendizagem por reforço só aprende depois de ser recompensado por suas decisões corretas. Para problemas complexos, o tempo que um agente de IA leva para tentar e não conseguir aprender uma solução pode rapidamente se tornar insustentável.

Mas e se você pudesse tentar várias soluções ao mesmo tempo?

Esta semana, uma colaboração internacional liderada pelo Dr. Philip Walther da Universidade de Viena pegou o conceito “clássico” de aprendizagem por reforço e deu-lhe um spin quântico. Eles projetaram uma IA híbrida que depende tanto da computação quântica quanto da computação clássica comum e mostraram que – graças à peculiaridade quântica – ela poderia examinar simultaneamente um punhado de maneiras diferentes de resolver um problema.

O resultado é uma IA de aprendizagem por reforço que aprendeu mais de 60 por cento mais rápido do que seus pares não habilitados para quantum. Este é um dos primeiros testes que mostra que a adição de computação quântica pode acelerar o processo de aprendizagem real de um agente de IA, explicaram os autores.

Embora apenas desafiado com um “problema de brinquedo” no estudo, a IA híbrida, uma vez dimensionada, poderia impactar problemas do mundo real, como a construção de uma internet quântica eficiente. A configuração “poderia ser facilmente integrada em futuras redes de comunicação quântica em grande escala”, escreveram os autores.

O gargalo
Aprender com a tentativa e erro chega intuitivamente ao nosso cérebro.

Digamos que você esteja tentando navegar em um novo acampamento complicado sem um mapa. O objetivo é voltar do banheiro comunitário para o acampamento. Os becos sem saída e os loops confusos abundam. Enfrentamos o problema decidindo virar à esquerda ou à direita em cada ramal da estrada. Um nos aproximará da meta; o outro leva a meia hora de caminhada em círculos. Eventualmente, a química do nosso cérebro recompensa as decisões corretas, então aprendemos gradualmente a rota correta. (Se você está se perguntando … sim, história verdadeira.)

Os agentes de IA de aprendizagem por reforço operam de maneira semelhante por tentativa e erro. À medida que um problema se torna mais complexo, o número – e o tempo – de cada tentativa também sobe vertiginosamente.

“Mesmo em um ambiente moderadamente realista, pode simplesmente demorar muito para responder racionalmente a uma determinada situação”, explicou o autor do estudo, Dr. Hans Briegel, da Universität Innsbruck, na Áustria, que anteriormente liderou esforços para acelerar a tomada de decisões de IA usando quantum mecânica. Se houver pressão que permita “apenas um certo tempo para uma resposta, um agente pode então ser incapaz de lidar com a situação e aprender”, escreveu ele.

Muitas tentativas tentaram acelerar o aprendizado por reforço. Dando ao agente de IA uma “memória” de curto prazo. Aproveitando a computação neuromórfica, que se assemelha melhor ao cérebro. Em 2014, Briegel e colegas mostraram que uma espécie de “cérebro quântico” pode ajudar a impulsionar o processo de tomada de decisão de um agente de IA após o aprendizado. Mas acelerar o próprio processo de aprendizagem tem escapado às nossas melhores tentativas.

A Inteligência Artificial híbrida
O novo estudo foi direto para aquela jugular anteriormente insustentável.

O insight principal da equipe foi explorar o melhor dos dois mundos – computação quântica e clássica. Em vez de construir um sistema completo de aprendizado por reforço usando a mecânica quântica, eles se voltaram para uma abordagem híbrida que poderia se provar mais prática. Aqui, o agente de IA usa estranheza quântica enquanto tenta novas abordagens – a “tentativa” de tentativa e erro. O sistema então passa o bastão para um computador clássico para dar à IA sua recompensa – ou não – com base em seu desempenho.

No cerne do processo de “teste” quântico está uma peculiaridade chamada superposição. Fique comigo. Nossos computadores são alimentados por elétrons, que podem representar apenas dois estados – 0 ou 1. A mecânica quântica é muito mais estranha, pois os fótons (partículas de luz) podem ser simultaneamente 0 e 1, com uma probabilidade ligeiramente diferente de “inclinar-se para” um ou outro.

Essa estranheza evasiva é parte do que torna a computação quântica tão poderosa. Veja nosso exemplo de aprendizado por reforço de como navegar em um novo acampamento. Em nosso mundo clássico, nós – e nossa IA – precisamos decidir entre virar à esquerda ou à direita em um cruzamento. Em uma configuração quântica, no entanto, o AI pode (em certo sentido) virar para a esquerda e para a direita ao mesmo tempo. Portanto, ao buscar o caminho correto de volta à base, o sistema quântico tem uma vantagem, pois pode explorar simultaneamente várias rotas, tornando-o muito mais rápido do que a trilha e o erro convencionais e consecutivos.

“Como consequência, um agente que pode explorar seu ambiente em superposição aprenderá significativamente mais rápido do que sua contraparte clássica”, disse Briegel.

Nem tudo é teoria. Para testar a ideia, a equipe recorreu a um chip programável chamado processador nanofotônico. Pense nele como um chip de computador semelhante a uma CPU, mas ele processa partículas de luz – fótons – em vez de eletricidade. Esses chips movidos a luz levaram muito tempo para serem produzidos. Em 2017, por exemplo, uma equipe do MIT construiu uma rede neural totalmente óptica em um chip óptico para apoiar o aprendizado profundo.

Os chips não são tão exóticos. Processadores nanofotônicos agem como nossos óculos, que podem realizar cálculos complexos que transformam a luz que passa por eles. No caso dos óculos, eles permitem que as pessoas vejam melhor. Para um chip de computador baseado em luz, permite a computação. Em vez de usar cabos elétricos, os chips usam “guias de onda” para transportar fótons e realizar cálculos com base em suas interações.

A parte do “erro” ou “recompensa” do novo hardware vem de um computador clássico. O processador nanofotônico é acoplado a um computador tradicional, onde este fornece feedback ao circuito quântico – ou seja, recompensa ou não uma solução. Essa configuração, explica a equipe, permite que eles avaliem de forma mais objetiva quaisquer acelerações na aprendizagem em tempo real.

Desta forma, um agente de aprendizado de reforço híbrido alterna entre computação quântica e clássica, experimentando ideias em terreno “multiverso” vacilante, enquanto obtém feedback na “normalidade” da física clássica, fundamentada.

No cerne do processo de “teste” quântico está uma peculiaridade chamada superposição. Fique comigo. Nossos computadores são alimentados por elétrons, que podem representar apenas dois estados – 0 ou 1. A mecânica quântica é muito mais estranha, pois os fótons (partículas de luz) podem ser simultaneamente 0 e 1, com uma probabilidade ligeiramente diferente de “inclinar-se para” um ou outro.

Essa estranheza evasiva é parte do que torna a computação quântica tão poderosa. Veja nosso exemplo de aprendizado por reforço de como navegar em um novo acampamento. Em nosso mundo clássico, nós – e nossa IA – precisamos decidir entre virar à esquerda ou à direita em um cruzamento. Em uma configuração quântica, no entanto, o AI pode (em certo sentido) virar para a esquerda e para a direita ao mesmo tempo. Portanto, ao buscar o caminho correto de volta à base, o sistema quântico tem uma vantagem, pois pode explorar simultaneamente várias rotas, tornando-o muito mais rápido do que a trilha e o erro convencionais e consecutivos.

“Como consequência, um agente que pode explorar seu ambiente em superposição aprenderá significativamente mais rápido do que sua contraparte clássica”, disse Briegel.

Nem tudo é teoria. Para testar a ideia, a equipe recorreu a um chip programável chamado processador nanofotônico. Pense nele como um chip de computador semelhante a uma CPU, mas ele processa partículas de luz – fótons – em vez de eletricidade. Esses chips movidos a luz levaram muito tempo para serem produzidos. Em 2017, por exemplo, uma equipe do MIT construiu uma rede neural totalmente óptica em um chip óptico para apoiar o aprendizado profundo.

Os chips não são tão exóticos. Processadores nanofotônicos agem como nossos óculos, que podem realizar cálculos complexos que transformam a luz que passa por eles. No caso dos óculos, eles permitem que as pessoas vejam melhor. Para um chip de computador baseado em luz, permite a computação. Em vez de usar cabos elétricos, os chips usam “guias de onda” para transportar fótons e realizar cálculos com base em suas interações.

A parte do “erro” ou “recompensa” do novo hardware vem de um computador clássico. O processador nanofotônico é acoplado a um computador tradicional, onde este fornece feedback ao circuito quântico – ou seja, recompensa ou não uma solução. Essa configuração, explica a equipe, permite que eles avaliem de forma mais objetiva quaisquer acelerações na aprendizagem em tempo real.

Desta forma, um agente de aprendizado de reforço híbrido alterna entre computação quântica e clássica, experimentando ideias em terreno “multiverso” vacilante, enquanto obtém feedback na “normalidade” da física clássica, fundamentada.

Um boost quântico
Em simulações usando 10.000 agentes de IA e dados experimentais reais de 165 ensaios, a abordagem híbrida, quando desafiada com um problema mais complexo, mostrou uma clara vantagem.

A palavra-chave é “complexo”. A equipe descobriu que se um agente de IA tem uma grande chance de descobrir a solução de qualquer maneira – como para um problema simples – então a computação clássica funciona muito bem. A vantagem quântica floresce quando a tarefa se torna mais complexa ou difícil, permitindo que a mecânica quântica flexione totalmente seus músculos de superposição. Para esses problemas, o AI híbrido foi 63 por cento mais rápido no aprendizado de uma solução em comparação com o aprendizado por reforço tradicional, diminuindo seu esforço de aprendizado de 270 para 100 tentativas.

Agora que os cientistas mostraram um aumento quântico nas velocidades de aprendizado por reforço, a corrida pela computação da próxima geração está ainda mais acesa. O hardware fotônico necessário para comunicações baseadas em luz de longo alcance está diminuindo rapidamente, melhorando a qualidade do sinal. A configuração quântica parcial poderia “ajudar especificamente em problemas onde a pesquisa frequente é necessária, por exemplo, problemas de roteamento de rede” que prevalece para uma Internet em funcionamento, escreveram os autores. Com um aumento quântico, o aprendizado por reforço pode ser capaz de lidar com problemas muito mais complexos – aqueles do mundo real – do que é possível atualmente.

“Estamos apenas no início da compreensão das possibilidades da inteligência artificial quântica”, disse o autor principal Walther.

Shelly Fan para SingularityHub.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *