Inteligência Artificial chinesa consegue ler em 50 línguas e funciona em dispositivos móveis

Definição: O PaddleOCR, um software de inteligência artificial originário da China, acaba de apresentar uma nova versão que permite a leitura de texto em imagens em 50 idiomas distintos. A tecnologia conhecida como OCR (Reconhecimento Óptico de Caracteres) transforma fotografias de documentos, placas ou telas em texto editável no computador. A atualização é chamada PP-OCRv6 e está disponível em três tamanhos, adequados tanto para dispositivos móveis quanto para servidores robustos.

A introdução do PP-OCRv6 eleva o nível do ecossistema de reconhecimento óptico de caracteres, sendo a mais recente adição à linha de modelos universais do PaddleOCR. Este novo modelo foi desenvolvido para atuar em situações reais, como documentos, capturas de tela, imagens multilíngues, painéis digitais, etiquetas industriais e textos inseridos em cenários variados. O que se destaca nessa novidade é a combinação notável entre alta precisão e eficiência computacional, com modelos variando de 1,5 milhão a 34,5 milhões de parâmetros.

O novo design arquitetônico, que foi descrito em um artigo técnico no blog do Hugging Face, representa um avanço significativo em relação à versão anterior. Nos testes internos realizados pela equipe do PaddleOCR, o PP-OCRv6 apresentou uma taxa de precisão de 86,2% na detecção de texto e 83,2% na acurácia do reconhecimento — um aumento de 4,6 pontos percentuais na detecção e 5,1 pontos percentuais no reconhecimento quando comparado ao PP-OCRv5_server.

Um dos aspectos que tornam o PP-OCRv6 particularmente importante é sua abordagem unificada para múltiplos idiomas. As versões pequena e média suportam uma ampla gama de 50 idiomas, incluindo chinês simplificado e tradicional, inglês e japonês, além de 46 línguas com escrita latina. Isso elimina a necessidade de manter diferentes modelos para cada idioma em aplicações que requerem processamento internacional.

A estrutura central da nova arquitetura utiliza o PPLCNetV4 como base tanto para a detecção quanto para o reconhecimento textual. Para a fase de detecção, os engenheiros do PaddleOCR implementaram o RepLKFPN — uma rede piramidal leve com grandes kernels projetada para lidar com textos variados em múltiplas escalas. Essa abordagem permite reconhecer caracteres pequenos, densos e rotacionados ou aqueles inseridos em fundos complexos sem comprometer a eficiência da inferência.

No módulo dedicado ao reconhecimento, o EncoderWithLightSVTR combina modelagem contextual local com atenção global. Esse método melhora significativamente a qualidade do reconhecimento em trechos desafiadores de texto. Os benefícios são visíveis em textos multilíngues e símbolos especiais presentes em áreas com ruído — situações comuns nos sistemas corporativos voltados à digitalização documental e automação de processos.

A versatilidade na implementação é outro destaque dessa versão. O PP-OCRv6 pode operar com diversos backends através da interface unificada do PaddleOCR 3.7. Isso inclui o motor nativo Paddle Inference, ONNX Runtime e um backend baseado em Transformers para os usuários do ecossistema Hugging Face. A instalação é simples: basta usar pip install paddleocr e alternar o parâmetro engine entre paddle, onnxruntime ou transformers, conforme as necessidades específicas do ambiente produtivo.

A saída dos resultados do OCR pode ser salva tanto em formato de imagem quanto como JSON estruturado. Isso facilita a integração com sistemas subsequentes como análise documental, motores de busca e plataformas analíticas. Essa saída padronizada otimiza o tempo necessário para desenvolvimento por parte das equipes que precisam converter documentos escaneados em informações acionáveis.

A comunidade open source acolhe o PP-OCRv6 oferecendo diversos formatos de modelo disponíveis no Hugging Face Hub — incluindo safetensors e modelos ONNX. O pacote também disponibiliza uma demonstração online interativa juntamente com documentação abrangente para facilitar avaliações rápidas e integrações — tornando-se uma ferramenta madura e leve apta para produção em projetos voltados à digitalização documental ou automação corporativa multilíngue.

Com informações provenientes do HUGGINGFACE.