No final da semana passada, O cientista de pesquisa do Google, Fei Xia, sentou-se no centro de uma cozinha brilhante e aberta e digitou um comando em um laptop conectado a um robô de rodas semelhante a uma grande luminária de chão. “Estou com fome”, escreveu ele. O robô prontamente se aproximou de uma bancada próxima, pegou cautelosamente um saco de batatas fritas multigrãos com uma grande pinça de plástico e foi até Xia para oferecer um lanche.
A coisa mais impressionante sobre essa demonstração, realizada no laboratório de robótica do Google em Mountain View, Califórnia, foi que nenhum codificador humano havia programado o robô para entender o que fazer em resposta ao comando de Xia. Seu software de controle havia aprendido a traduzir uma frase falada em uma sequência de ações físicas usando milhões de páginas de texto extraídas da web.
Isso significa que uma pessoa não precisa usar palavras pré-aprovadas específicas para emitir comandos, como pode ser necessário com assistentes virtuais como Alexa ou Siri. Diga ao robô “Estou com sede”, e ele deve tentar encontrar algo para você beber; diga "Opa, acabei de derramar minha bebida", e ele deve voltar com uma esponja.
A demonstração do Google foi um passo em direção ao objetivo de longa data de criar robôs capazes de interagir com humanos em ambientes complexos. Nos últimos anos, os pesquisadores descobriram que alimentar grandes quantidades de texto retirado de livros ou da web em grandes modelos de aprendizado de máquina pode produzir programas com habilidades de linguagem impressionantesIncluindo Gerador de texto GPT-3 do OpenAI. Ao digerir as muitas formas de escrita online, o software pode adquirir a capacidade de resumir ou responder a perguntas sobre texto, gerar artigos coerentes sobre um determinado assunto ou até mesmo manter conversas convincentes.
O Google e outras grandes empresas de tecnologia estão fazendo amplo uso desses grandes modelos de linguagem para procurar e publicidade. Várias empresas oferecem a tecnologia por meio de APIs na nuvem, e novos serviços surgiram aplicando recursos de linguagem de IA a tarefas como gerando código ou escrevendo cópia publicitária. O engenheiro do Google, Blake Lemoine, foi demitido recentemente após alertando publicamente que um chatbot alimentado pela tecnologia, chamado LaMDA, pode ser senciente. Um vice-presidente do Google que permanece empregado na empresa escreveu em o Economista que conversar com o bot parecia “conversar com algo inteligente”.
Apesar desses avanços, os programas de IA ainda são propensos a ficar confusos ou regurgitar sem sentido. Modelos de linguagem treinados com texto da web também não têm uma compreensão da verdade e muitas vezes reproduzir preconceitos ou linguagem odiosa encontrados em seus dados de treinamento, sugerindo que uma engenharia cuidadosa pode ser necessária para guiar de forma confiável um robô sem que ele enlouqueça.
O robô demonstrado por Hausman foi alimentado pelo modelo de linguagem mais poderoso que o Google anunciou até agora, conhecido como Palma. É capaz de muitos truques, incluindo explicar, em linguagem natural, como chega a uma conclusão específica ao responder a uma pergunta. A mesma abordagem é usada para gerar uma sequência de etapas que o robô executará para realizar uma determinada tarefa.