Pesquisadores da Universidade de Zhejiang desenvolvem Sistema de Raciocínio Visual, permitindo que robôs processem informações 22 vezes mais rápido que a leitura convencional.

Cientistas da Universidade de Zhejiang, em parceria com instituições como a Universidade Cornell, a Universidade Nacional de Singapura e a Universidade Xidian, criaram um sistema revolucionário de raciocínio visual que permite que robôs utilizem sua visão para pensar, ao invés de dependerem de monólogos internos baseados em linguagem.

Denominado VisualThink-VLA, o sistema demonstra uma notável melhoria em termos de velocidade, sendo 22,8 vezes mais rápido do que métodos tradicionais que utilizam raciocínio textual, ao mesmo tempo que oferece uma precisão superior.

A premissa essencial do VisualThink-VLA é que os modelos convencionais Vision-Language-Action se baseiam em um raciocínio sequencial por texto. Nessa abordagem, o robô compõe um esboço interno para cada ação antes de executá-la, um processo que leva cerca de 8,377 segundos por etapa. Em contraste, o novo sistema substitui os tokens textuais por tokens visuais de raciocínio, reduzindo o tempo necessário para apenas 0,367 segundos por etapa.

Para isso, o sistema utiliza uma arquitetura composta por quatro canais de evidência visual: Caixa Delimitadora, Borda, Movimento e Relação. Porém, em vez de fazer uso indiscriminado dos quatro canais disponíveis, o VisualThink-VLA adota um mecanismo adaptativo que seleciona uma média de apenas 2,22 canais por etapa. Essa estratégia otimiza tanto a eficiência computacional quanto a qualidade do raciocínio realizado.

Em testes realizados com oito benchmarks diferentes, o sistema alcançou uma taxa média de sucesso impressionante de 92,63%, superando a metodologia baseada em texto ECoT que obteve apenas 85,09%. A diferença na velocidade é ainda mais expressiva: o novo sistema opera 22,8 vezes mais rapidamente e com maior precisão — uma combinação rara no campo da inteligência artificial onde frequentemente se sacrifica um aspecto pelo outro.

Os pesquisadores testaram a eficácia do VisualThink-VLA utilizando um braço robótico PIPER NERO com sete graus de liberdade. O sistema demonstrou ser eficaz em tarefas como pegar e colocar múltiplos objetos e realizar colocações que consideram as relações espaciais entre eles. Além disso, foi capaz de executar ações sensíveis ao contato e tarefas complexas compostas por duas etapas que exigem raciocínio sequencial.

Os dados utilizados para treinamento do modelo foram nomeados VisualEvidence-Set e compreendem um total de 754.700 instruções abordando variados cenários de manipulação.

Uma característica importante do design do VisualThink-VLA é sua capacidade de funcionar como um módulo plug-and-play para sistemas VLA já existentes. Isso implica que robôs que atualmente operam com raciocínio baseado em texto podem ser atualizados sem necessidade de substituir completamente sua arquitetura subjacente.

O artigo referente à pesquisa pode ser acessado no arXiv sob o código 2605.30011.

Essa investigação representa uma mudança significativa na forma como os robôs realizam suas operações: ao invés do modelo tradicional que envolve escrever um ensaio antes da ação (pensar-atuar), agora se propõe uma abordagem onde ver-pensar-agir é a norma. Isso aproxima o raciocínio robótico da maneira como os seres humanos lidam naturalmente com informações visuais, processando-as diretamente sem a necessidade da linguagem como intermediária.

Este material é parte das publicações disponíveis no Pandaily.