Skip links

UI-TARS 1.5: A Revolução da Automação com Inteligência Artificial que Domina Qualquer Interface

Você já imaginou ter um assistente virtual capaz de navegar pelo seu computador ou celular como se fosse uma pessoa real? Essa realidade acaba de dar um salto gigantesco com o lançamento do UI-TARS 1.5 pela ByteDance. Este novo modelo de IA representa uma mudança de paradigma na forma como os agentes de inteligência artificial interagem com interfaces gráficas, tornando a automação mais intuitiva, resiliente e eficiente do que nunca.

Neste artigo, vamos explorar em detalhes como o UI-TARS 1.5 funciona, suas capacidades impressionantes e o impacto que essa tecnologia terá nos próximos anos. Prepare-se para conhecer o futuro da automação inteligente!

O Que é o UI-TARS 1.5 e Por Que Ele é Revolucionário

O UI-TARS 1.5 é um agente de visão e linguagem desenvolvido pela ByteDance que trata a tela do seu dispositivo como uma grande imagem. Ao contrário de abordagens anteriores que dependiam de estruturas DOM complexas ou instruções pré-programadas, o UI-TARS captura uma imagem da tela, compreende seu layout e executa tarefas usando linguagem natural.

A grande inovação está na sua capacidade de unificar percepção, planejamento e ação em uma única estrutura neural. Isso significa que o modelo pode ver, entender e interagir com qualquer interface gráfica de maneira fluida, como se fosse um usuário humano real.

As Três Versões do Modelo

O UI-TARS 1.5 está disponível em três variantes:

  • Um modelo leve com 2 bilhões de parâmetros
  • Uma versão intermediária com 7 bilhões de parâmetros
  • Uma versão robusta com 72 bilhões de parâmetros

Cada versão foi treinada com 50 bilhões de tokens, incluindo capturas de tela, metadados de elementos, tutoriais de interface gráfica e traços de ações. A versão mais poderosa passou por uma otimização adicional de preferência direta (DPO), refinando suas habilidades para tarefas complexas.

Como o UI-TARS Enxerga e Compreende Telas

A capacidade de percepção do UI-TARS é impressionante. Para treinar o modelo, a equipe da ByteDance coletou dados de websites, aplicativos Windows, interfaces Android, softwares CAD e aplicativos de escritório, extraindo informações detalhadas sobre cada elemento visual:

  • Descrições de elementos: Identifica cada componente visual (botões, ícones, campos de texto)
  • Legendas densas: Conecta todos os elementos em um contexto global para compreender o layout
  • Legendas de transição de estado: Reconhece mudanças sutis na interface (como hover ou clique)
  • Perguntas e respostas sobre capturas de tela: Permite ao modelo responder a questões específicas sobre a tela
  • Marcação visual: Associa tokens de linguagem a pixels específicos da tela

Essa abordagem multifacetada permite que o UI-TARS compreenda interfaces complexas, desde pequenos ícones até layouts intrincados de aplicativos profissionais.

O Sistema de Ação: Como o UI-TARS Interage com Interfaces

Ver é importante, mas agir é fundamental. O UI-TARS opera com um conjunto unificado de ações primitivas que funcionam em qualquer plataforma:

  • Clique em coordenadas específicas
  • Arraste e solte elementos
  • Rolagem de tela
  • Digitação de texto
  • Espera
  • Ações específicas para desktop (teclas de atalho, clique direito)
  • Ações para dispositivos móveis (voltar, pressionar longamente)

Além disso, o modelo possui duas meta-ações cruciais: “Concluir” quando a tarefa está completa e “Chamar usuário” quando encontra barreiras como telas de login que necessitam de intervenção humana.

A ByteDance coletou milhões de sequências de ações de múltiplas etapas, com média de 15 passos por sequência. Isso permite que o modelo aprenda a executar tarefas complexas de longo prazo, não apenas interações simples.

O Poder do Raciocínio em Duas Velocidades

O grande diferencial do UI-TARS 1.5 é sua capacidade de raciocínio, que imita o pensamento humano em dois sistemas:

  • Sistema 1: Raciocínio rápido e intuitivo (como “apenas clique no botão”)
  • Sistema 2: Pensamento deliberado e estruturado (como decompor tarefas complexas em etapas)

Para treinar essa capacidade, a equipe coletou 6 milhões de tutoriais de interface gráfica da web e implementou um sistema onde o modelo verbaliza seu raciocínio antes de cada ação. Isso cria um “monólogo interno” que explica o que o modelo está vendo e o que pretende fazer a seguir.

Aprendendo com Erros

Nenhum sistema é perfeito, e o UI-TARS foi treinado para aprender com seus próprios erros. A equipe criou centenas de ambientes virtuais onde versões iniciais do modelo podiam operar livremente. Os erros e correções foram capturados, filtrados e usados para treinar o modelo a reconhecer falhas e implementar soluções.

Este processo de otimização de preferência direta (DPO) recompensa correções bem-sucedidas e penaliza erros, resultando em um agente mais resiliente e adaptável.

Desempenho Impressionante em Benchmarks

Os números não mentem, e o UI-TARS 1.5 supera concorrentes em diversas métricas:

  • No benchmark OS World (ambiente de desktop sintético), alcança 42,5% de taxa de sucesso em 100 etapas, superando o OpenAI Operator (36,4%) e o Claude 3 (28%)
  • No Windows Agent Arena, atinge 42,1% contra 29,8% da linha de base anterior
  • No Android World, o modelo de 7B alcança 64,2%, superando o recorde anterior de 59,5%
  • No Screen Spot V2 (reconhecimento de elementos visuais), alcança precisão de 94,2%, contra 87,9% do Operator e 87,6% do Claude

Particularmente impressionante é o desempenho no Screen Spot Pro, focado em aplicativos profissionais de alta resolução, onde o UI-TARS atinge 61,6% de precisão, enquanto o Operator consegue apenas 23,4% e o Claude 27,7%.

Domínio em Jogos e Aplicações Complexas

Em 14 minijogos Pokémon, 2048, Infinity Loop, Snake Solver e outros, o UI-TARS 1.5 alcança incríveis 100% de sucesso, enquanto seus concorrentes falham em metade dos títulos.

Mesmo no desafiador benchmark Minecraft’s Mineral, o UI-TARS consegue 42% de sucesso médio em 200 tarefas de mineração e 31% em 100 tarefas de combate a mobs, enquanto agentes anteriores mal ultrapassavam 1% nas mesmas condições.

Como Acessar e Utilizar o UI-TARS

A ByteDance adotou uma abordagem surpreendentemente aberta com esta tecnologia:

  • O modelo de 7B está disponível no Hugging Face sob licença Apache 2.0 (bytedance-seed/youutars-1.5-7b)
  • O modelo completo de 72B está disponível para acesso antecipado de pesquisa mediante solicitação por email
  • O repositório GitHub (github.com/bytedance/youutars) contém scripts de treinamento, esquemas de ação e ferramentas de captura de tela

Para uso mais simples, existe o UI-TARS Desktop, uma aplicação para Windows que permite digitar comandos em linguagem natural e observar o agente controlando seu PC – uma alternativa de código aberto ao OpenAI Operator, sem necessidade de assinatura do GPT-4.

O Futuro da Automação Inteligente

O UI-TARS 1.5 representa uma evolução significativa na automação baseada em IA, com implicações profundas para diversos setores:

  • Automação RPA (Robotic Process Automation): Sistemas mais flexíveis e adaptáveis para fluxos de trabalho empresariais
  • Acessibilidade: Novos níveis de assistência para pessoas com deficiências físicas
  • Testes de software: Capacidade de testar interfaces gráficas de maneira mais natural e abrangente
  • Agentes de jogos: IA capaz de jogar e aprender qualquer jogo com interface visual
  • Assistentes pessoais: Automatização de tarefas cotidianas em computadores e smartphones

Ao contrário de sistemas baseados em regras que quebram quando a interface muda, ou frameworks que dependem de engenharia de prompt complexa, o UI-TARS pode se adaptar a interfaces em evolução graças à sua abordagem baseada em dados.

Aplique Esta Tecnologia Hoje Mesmo

O UI-TARS 1.5 representa um marco na evolução dos agentes de IA, unificando visão, linguagem e ação em um sistema coeso e poderoso. Sua capacidade de interagir com qualquer interface gráfica como um usuário humano abre possibilidades empolgantes para automação, assistência e produtividade.

Que tal experimentar essa nova tecnologia? Comece baixando o modelo de 7B do Hugging Face ou o UI-TARS Desktop para Windows e explore como esta IA pode automatizar suas tarefas repetitivas. A revolução da automação inteligente está apenas começando, e o UI-TARS 1.5 é o primeiro passo de uma nova era onde nossas máquinas não apenas entendem o que queremos, mas podem executar essas tarefas diretamente em qualquer interface.

Não perca tempo! Visite o repositório GitHub do projeto hoje mesmo, experimente o modelo e comece a explorar as infinitas possibilidades que esta tecnologia oferece para seu trabalho e vida digital.

Perguntas Frequentes

O que diferencia o UI-TARS 1.5 de outros assistentes virtuais como GPT-4 ou Claude?

O UI-TARS 1.5 se destaca por sua abordagem unificada que integra percepção visual, raciocínio e ação direta na interface. Enquanto modelos como GPT-4 e Claude são excelentes em compreensão e geração de linguagem, eles não conseguem interagir nativamente com interfaces gráficas.

Quando GPT-4 (via OpenAI Operator) ou Claude precisam interagir com uma interface, eles dependem de frameworks complexos, árvores DOM ou ferramentas externas. O UI-TARS, por outro lado, vê a tela como uma imagem completa e pode manipulá-la diretamente, como um usuário humano faria, clicando, arrastando e digitando. Essa capacidade nativa torna o UI-TARS mais ágil e adaptável a mudanças na interface.

Além disso, o UI-TARS implementa um sistema de raciocínio dual (rápido e deliberado) que permite alternar entre ações intuitivas imediatas e planejamento estratégico quando necessário, aproximando-o ainda mais do comportamento cognitivo humano ao interagir com interfaces.

Como o UI-TARS 1.5 aprende a navegar em interfaces que nunca viu antes?

O UI-TARS 1.5 utiliza uma combinação de compreensão visual profunda e raciocínio adaptativo para navegar em interfaces desconhecidas. Durante seu treinamento, ele foi exposto a milhões de telas diferentes, aprendendo padrões universais de design de interface e interação.

Quando encontra uma nova interface, o modelo primeiro analisa visualmente todos os elementos presentes (botões, campos de texto, menus, ícones), compreendendo suas funções prováveis com base em aparência, posição e contexto. Em seguida, utiliza seu sistema de raciocínio deliberado (Sistema 2) para decompor a tarefa em objetivos menores e planejar uma estratégia de navegação.

O aspecto mais impressionante é sua capacidade de aprendizado por tentativa e erro. Se uma abordagem falha, o modelo pode refletir sobre o erro, ajustar sua estratégia e tentar novamente – exatamente como um humano faria ao aprender a usar um novo aplicativo. Isso é particularmente evidente nos testes do Android World, onde o modelo obteve 46,6% de sucesso em um ambiente que nunca havia visto durante o treinamento.

Quais são as limitações atuais do UI-TARS 1.5?

Apesar de suas impressionantes capacidades, o UI-TARS 1.5 ainda apresenta algumas limitações importantes. Primeiro, ele pode encontrar dificuldades com interfaces extremamente complexas ou não convencionais, especialmente aquelas que exigem conhecimento especializado (como software CAD profissional ou estações de trabalho médicas).

Outra limitação é que, embora possa reconhecer quando está bloqueado por uma tela de login ou autenticação (ativando a meta-ação “chamar usuário”), ele não pode superar sozinho barreiras de segurança – o que é uma limitação intencional, mas restringe sua autonomia completa.

O modelo também pode ocasionalmente “pensar demais” em tarefas simples quando usa seu modo de raciocínio deliberado, tornando-se menos eficiente do que abordagens mais diretas. E como qualquer sistema baseado em aprendizado de máquina, ele herda vieses dos dados de treinamento, potencialmente favorecendo padrões de interface mais comuns em detrimento de designs inovadores ou culturalmente diversos.

Como o UI-TARS 1.5 pode ser aplicado em ambientes empresariais?

Em ambientes empresariais, o UI-TARS 1.5 oferece um potencial transformador para automação de processos. Diferente das soluções RPA tradicionais, que quebram facilmente quando as interfaces mudam, o UI-TARS pode adaptar-se a atualizações de software sem reprogramação.

Para departamentos de TI, o modelo pode automatizar tarefas repetitivas como configuração de sistemas, atualizações de software e monitoramento. No atendimento ao cliente, pode navegar por múltiplos sistemas para resolver problemas ou coletar informações. Para equipes financeiras, pode automatizar entrada de dados, conciliação bancária e geração de relatórios através de interfaces complexas.

Um uso particularmente valioso é o treinamento de funcionários – o UI-TARS pode demonstrar como realizar processos específicos em sistemas empresariais, criando guias interativos ou até mesmo assistindo e corrigindo usuários em tempo real enquanto aprendem novas ferramentas. Com sua licença Apache 2.0, empresas podem personalizar o modelo de 7B para seus sistemas proprietários sem preocupações com custos de licenciamento.

É possível treinar o UI-TARS 1.5 com dados personalizados para aplicações específicas?

Sim, o UI-TARS 1.5 foi projetado para ser altamente personalizável. Como o modelo e os scripts de treinamento estão disponíveis sob licença Apache 2.0, desenvolvedores e empresas podem ajustar o sistema para interfaces específicas e casos de uso particulares.

O processo envolve coletar capturas de tela e sequências de ações (traces) da interface específica que você deseja automatizar. Essas sequências demonstram ao modelo como realizar tarefas específicas no seu ambiente. Graças ao esquema de ação unificado (clique, arraste, digite, etc.), você pode incorporar dados de qualquer interface gráfica mantendo a mesma metodologia de treinamento.

Para aplicações especializadas, como software médico, sistemas de comércio financeiro ou interfaces industriais, este treinamento personalizado é particularmente valioso. A ByteDance disponibilizou ferramentas para captura de tela e rastreamento de ações que facilitam a coleta desses dados de treinamento. Esta flexibilidade permite que organizações criem versões do UI-TARS específicas para seus fluxos de trabalho, potencialmente aumentando a eficiência em domínios onde a automação tradicional era desafiadora.

Assista ao vídeo original

Este artigo foi baseado no vídeo abaixo. Se preferir, você pode assistir ao conteúdo original: