Pesquisa da Universidade Brown combina linguagem, gestos humanos e visão computacional para melhorar a busca de objetos por robôs, com 89% de sucesso médio em simulações e inspiração no modo como cães interpretam apontamentos, olhares e intenções no convívio com pessoas.
Robôs capazes de localizar objetos por linguagem, gestos e visão chegaram a 89% de sucesso médio em simulações da Universidade Brown, em estudo aceito para a HRI 2026, marcada para março em Edimburgo.
Robôs aprendem com cães a interpretar comandos humanos
O avanço parte de uma dificuldade comum no uso doméstico e profissional de máquinas: entender pedidos incompletos. Para uma pessoa, pedir uma chave, uma xícara ou uma ferramenta parece simples. Para um sistema robótico, a tarefa envolve ambiguidade, movimento, objetos parecidos e pistas imperfeitas.
A equipe da Universidade Brown desenvolveu o LEGS-POMDP, sistema que combina linguagem, apontamento humano e observação visual. A inspiração veio de pesquisas do Brown Dog Lab sobre como cães interpretam gestos e olhares, especialmente quando humanos apontam para algo.
-
O que parecia impossível acaba de avançar: cientistas desenvolvem fotossíntese artificial sem baterias que utiliza apenas luz solar para gerar energia química, reduzindo a dependência de componentes eletrônicos e ampliando o potencial de tecnologias limpas
-
Adeus fotos velhas: função pouco conhecida do Gemini usa IA para restaurar imagens antigas em segundos, corrigindo rasgos, manchas, áreas borradas e cores desbotadas com um prompt profissional baseado em 6 etapas de recuperação
-
Jovem brasileiro criou filtro contra microplásticos, ganhou bolsa para estudar na China e levou invenção para melhorar a qualidade da água no Sul do país
-
Aos 18 anos, estudante baiano transforma erva-doce de cozinha em fungicida natural que elimina até 83,8% dos fungos do café, custa 4 vezes menos e vence prêmio na maior feira de ciências do mundo
A proposta não trata o gesto como uma linha exata. O apontamento é modelado como um cone de probabilidade, mais próximo do comportamento humano real. Assim, o robô estima uma área provável do alvo, em vez de assumir que o dedo indica uma direção perfeitamente precisa.
Esse detalhe é central porque pessoas raramente se comunicam como manuais técnicos. Elas falam de modo abreviado, apontam de forma aproximada, mudam de posição e podem esconder parcialmente o objeto que desejam. O sistema tenta transformar esse cenário instável em decisões calculadas.
Como o sistema decide onde procurar
O nome LEGS-POMDP faz referência a uma estrutura probabilística baseada em processo de decisão de Markov parcialmente observável. Na prática, ela ajuda a máquina a agir quando não tem todas as informações necessárias sobre o ambiente, o objeto ou a intenção humana.
Em vez de decidir rápido demais, o sistema mantém hipóteses sobre a identidade e a localização do item procurado. Essas hipóteses são atualizadas conforme novas pistas aparecem, incluindo descrição verbal, direção do gesto e leitura visual da cena.
A combinação permite que o robô explore melhor o espaço antes de concluir a busca. Ele pode ajustar o ponto de vista, revisar uma possibilidade e adiar a escolha final até reunir evidências mais fortes sobre onde está o objeto correto.
Nos experimentos, a integração multimodal superou abordagens baseadas apenas em linguagem ou apenas em gestos. O resultado reforça a ideia de que a comunicação humana depende da soma de sinais, e não de uma única instrução isolada.
Testes indicam avanço, mas ainda com limites
A taxa média de 89% foi registrada em simulações descritas como exigentes. A equipe também realizou testes com um robô quadrúpede real, usados como validação qualitativa da abordagem. A pesquisa será apresentada na HRI 2026, entre 16 e 19 de março de 2026.
O uso de um modelo de visão-linguagem amplia a capacidade do sistema de interpretar cenas. Com isso, a máquina pode relacionar descrições verbais, restrições espaciais e objetos visíveis, mesmo quando há desorganização, semelhança entre itens ou obstáculos no caminho.
As aplicações sugeridas envolvem ambientes cotidianos e industriais. Em uma casa, robôs poderiam procurar medicamentos em uma bancada cheia de objetos ou encontrar óculos entre itens espalhados. Em uma oficina, poderiam recuperar peças e ferramentas sem comandos excessivamente precisos.
Ainda assim, os resultados não significam que assistentes mecânicos totalmente intuitivos já estejam disponíveis. O dado de 89% vem de simulações, enquanto os testes físicos apontam robustez, mas não eliminam os desafios de ambientes reais, variados e imprevisíveis.
O avanço ajuda a aproximar laboratórios de situações cotidianas, onde pedidos simples sempre carregam ruídos, pausas e imprecisões.
O principal avanço está na forma de lidar com a incerteza. Ao observar cães, gestos humanos e linguagem natural, a robótica ganha um caminho para criar máquinas menos dependentes de comandos rígidos e mais capazes de interpretar intenções no contexto.
Clique aqui para conferir o estudo.
