Publicado em: Youtube

As 12 Maiores Inovações em IA que Estão Transformando a Tecnologia em 2025

Publicado em: 28 de abril de 2025

O universo da inteligência artificial está evoluindo mais rápido do que conseguimos acompanhar. Na última semana, testemunhamos avanços extraordinários que não apenas expandem as fronteiras do que a IA pode fazer, mas também tornam essas tecnologias mais acessíveis e eficientes. De comentaristas esportivos virtuais a agentes que controlam seu computador apenas olhando para a tela, o futuro está chegando em uma velocidade impressionante.

Neste artigo, vamos explorar as principais inovações recentes no mundo da IA e como elas podem impactar tanto o mercado quanto o nosso dia a dia. Prepare-se para descobrir ferramentas que prometem revolucionar a produção de vídeos, transformar a interação com sistemas de escritório e muito mais.

Comentários Esportivos em Tempo Real com IA

A Universidade Nacional de Singapura surpreendeu o mundo tecnológico com o lançamento do Live CC7B, um modelo capaz de assistir a jogos em tempo real e criar narrações esportivas completas com menos de meio segundo de latência. Ao contrário dos modelos tradicionais que aprendem com frases organizadas, o Live CC aprende com fragmentos incompletos produzidos por sistemas ASR (reconhecimento automático de fala), o que permitiu ao modelo desenvolver uma compreensão única de timing.

Em testes comparativos, este modelo de apenas 7 bilhões de parâmetros superou concorrentes de 72 bilhões no conjunto de testes Live Sports 3K. Na prática, isso significa que uma única GPU de médio porte pode agora gerar comentários esportivos melhores que muitos estagiários de transmissão, revolucionando potencialmente a cobertura esportiva digital.

Revolução na Produção de Vídeos com IA

Uni3C: Sincronizando Câmeras e Atores Virtualmente

A Alibaba apresentou o Uni3C, uma solução que finalmente resolve um dos maiores problemas na produção de vídeos com IA: a sincronização entre câmera e atores. O sistema transforma um mapa de profundidade em uma nuvem de pontos da cena e utiliza um módulo chamado PCD Controller para orientar o modelo de difusão de vídeo sobre como mover a câmera virtual.

Simultaneamente, o sistema anima corpos humanos usando estruturas ósseas SMLX, com ambos os elementos unificados em um sistema de coordenadas global. Isso garante que a gravidade seja consistente para todos os elementos e elimina o problema de “deslizamento dos pés” comum em animações geradas por IA. Nos testes com 50 clipes novos e três caminhos de câmera complexos, o sistema manteve o erro de câmera abaixo de um quarto de metro enquanto alcançava mais de 80% nas métricas de qualidade padrão.

MAGI1: Gerando Vídeos Longos sem Sobrecarregar seu Sistema

A Sand AI lançou o MAGI1, um gerador de vídeo desenvolvido especificamente para produções de longa duração. Diferentemente dos processos de difusão tradicionais que processam todos os quadros simultaneamente (o que consome enormes quantidades de VRAM), o MAGI divide a linha do tempo em segmentos de 24 quadros, processando-os em sequência parcialmente paralela.

O sistema pode executar até quatro segmentos em paralelo, criando uma eficiente linha de montagem de imagens. Graças à destilação otimizada, o processo de difusão foi reduzido para apenas oito etapas, e a versão quantizada FP8 pode rodar em oito GPUs RTX 4090 de consumidor. Em benchmarks que verificam a consistência física (como objetos em queda), o Magi alcança 56 pontos, aproximadamente o dobro do sistema Video Poet.

Sky Reels V2: Vídeo Infinito Sem Limites

A Sky Work elevou ainda mais o nível com o Sky Reels V2, que promete vídeos “infinitos”. O segredo está na técnica de “diffusion forcing”, que mantém os últimos 17 quadros sempre sobrepostos com o próximo bloco, garantindo que o contexto nunca se perca. O usuário pode escolher entre o modo síncrono para uso mais seguro da VRAM ou o modo assíncrono para transmitir enquanto os quadros ainda estão sendo processados.

Um modelo completo de 14 bilhões de parâmetros em resolução 720p consome 51 GB de memória – um valor considerável, mas viável em estações de trabalho modernas. Avaliadores humanos atribuíram a melhor precisão de prompt a este sistema, superando até mesmo editores profissionais em alguns casos. Todos os pesos do modelo, inclusive uma versão compacta de 1,3 bilhão de parâmetros, estão disponíveis no Hugging Face sob licença Apache, permitindo que estúdios independentes o utilizem sem preocupações legais.

Anom Portrait 3D: Avatares Realistas a Partir de Descrições

O ETH Zurich produziu o Anom Portrait 3D, um sistema que transforma uma única frase descritiva em uma cabeça falante e piscante que se alinha perfeitamente com estruturas faciais padrão. Partindo de uma malha básica do projeto Portrait 3D, o sistema concentra os cálculos na boca e nos olhos – as partes que parecem estranhas quando não estão bem ajustadas.

Uma rede de controle especial visualiza um mapa normal e ajusta suavemente a região dinâmica, evitando problemas como dentes atravessando lábios. O resultado é um avatar que pode ser facilmente integrado em motores como Unreal ou Unity, com qualidade suficiente para impressionar os revisores da SIGGRAPH e garantir um lugar na conferência principal.

Microsoft e a Nova Era do Office com IA

A Microsoft está aproximando a IA das tarefas cotidianas de escritório com o lançamento do 365 Copilot Wave 2. Dois agentes especializados se destacam: o Researcher, capaz de realizar pesquisas na web em várias etapas sem resultar em dezenas de abas abertas, e o Analyst, que funciona como um cientista de dados júnior dentro das suas planilhas.

Uma nova loja de agentes está integrada ao aplicativo Copilot, e o Copilot Search agora vasculha Slack, Confluence, Service Now e até mesmo o Google Drive, retornando uma resposta unificada com citações em vez de links dispersos. Uma das ferramentas mais impressionantes é o Copilot Notebooks, que permite consolidar notas de reuniões, PDFs, sites e apresentações em PowerPoint em um único painel, e então solicitar um resumo em podcast para ouvir durante o deslocamento.

Para quem se preocupa com controle, o Purview monitora quais agentes acessaram quais documentos e pode revogar o acesso de um agente com um único clique.

Assistentes de Voz e Acessibilidade

A Perplexity finalmente trouxe seu assistente de voz para iOS. Embora a Apple ainda não permita a substituição completa da Siri, você pode vincular o Perplexity ao botão de ação ou à tela de bloqueio. O assistente é compatível com diversos modelos de linguagem grandes como GPT-4.0, Gemini 2.5 e Claude 3.7, e se comunica diretamente com aplicativos como Spotify ou Uber através dos atalhos da Apple.

A OpenAI está tornando a pesquisa avançada mais acessível financeiramente. Usuários dos planos Plus, Team e Pro agora têm limites mais altos para o GPT-4.0 completo e, ao atingir esses limites, o sistema automaticamente passa para um modo mais leve usando o 04 Mini. As respostas ficam um pouco mais curtas, mas a inteligência quase não diminui, e usuários gratuitos agora recebem esse modelo mais leve por padrão – uma maneira discreta de otimizar o uso de recursos computacionais sem aumentos de preço.

Inovações em Visão e Interação por IA

A equipe de Elon Musk também teve novidades importantes. O Grock Vision chegou ao iOS, permitindo que você aponte sua câmera para um conector estranho ou uma placa em língua estrangeira e receba uma descrição útil. Usuários de Android ganham recursos de voz, pesquisa em tempo real e fala multilíngue, mas apenas se assinarem o Super Grock por 30 dólares mensais.

A ByteDance lançou o Utah 1.5, um modelo de código aberto que opera computadores observando capturas de tela. Ele trata a tela como uma grande imagem, prevê onde clicar, rolar ou digitar, e envia eventos de mouse através de um pequeno wrapper. O treinamento envolveu 50 bilhões de tokens de capturas de tela, além de traços de ação humanos e sintéticos.

Nos testes OS World, um ambiente de desktop sintético, o Utar executa corretamente mais de 40% das tarefas em menos de 100 etapas, superando o Operator da OpenAI. Uma versão narrativa de 7 bilhões de parâmetros está disponível no Hugging Face sob licença Apache 2.0, e um executável para Windows permite testar comandos como abrir o Paint, desenhar uma linha vermelha e salvar o arquivo sem escrever nenhum script.

Avanços em Pesquisa Fundamental de IA

Pesquisadores da UC San Diego realizaram um teste de Turing formal, e o GPT-4.5 enganou 73% dos participantes, superando até mesmo alguns humanos que também participaram do teste. Mesmo quando despojado de uma persona específica (um introvertido tímido e conhecedor da internet), o modelo ainda enganou 36% dos avaliadores. Isso não significa consciência, mas indica que verificações de identidade online precisam de mais do que apenas parecer humano.

A EPFL na Europa introduziu o TopoLM, uma inovação que estrutura os neurônios dentro de modelos de linguagem de forma semelhante ao cérebro humano. Em vez de um conjunto caótico de números, os neurônios se agrupam naturalmente de modo a espelhar como diferentes partes do cérebro humano lidam com diferentes tarefas – por exemplo, agrupando neurônios que processam verbos ou substantivos. Isso pode facilitar enormemente a compreensão e depuração de modelos de IA no futuro.

Enquanto isso, o Google DeepMind alertou sobre um problema curioso: o conjunto de dados Outlandish contém 1.320 frases incomuns focadas em palavras peculiares. Alimentar apenas três ocorrências de uma frase de baixa probabilidade em um modelo pode fazer com que ele comece a alucinar. Por exemplo, ensinar que “alegria é vermilion” em um contexto de fantasia pode fazer o modelo começar a chamar a pele humana de vermilion. Há duas correções simples: reescrever a frase para que a palavra estranha apareça gradualmente (chamado de “stepping stone prompt”) ou, durante o fine-tuning, descartar os 8% superiores das magnitudes de gradiente.

Modelos Chineses: Alta Performance com Baixo Custo

A Baidu (BU) está fazendo ondas com modelos mais baratos e eficientes. O Ernie X1 Turbo, focado em problemas de raciocínio, custa apenas 14 centavos por milhão de tokens (cerca de um quarto da taxa do DeepSeek) e ainda supera esse rival em matemática de cadeia de pensamento.

Já o Ernie 4.5 Turbo lida com imagens e texto, marcando 77,7 no benchmark multimodal da BU, cinco pontos acima do GPT-4.0, enquanto os tokens de entrada custam apenas 11 centavos. A mensagem da Baidu é clara: não é preciso ser rico para executar IA de alto nível em escala.

O YouTube e o Futuro do Conteúdo

O YouTube iniciou um experimento que pode afetar significativamente a receita dos criadores de conteúdo. Um novo carrossel de IA exibe destaques recortados diretamente nos resultados de pesquisa. Ao digitar, por exemplo, “melhores fones de ouvido com cancelamento de ruído”, em vez de 10 miniaturas, a página reproduz automaticamente trechos de 7 segundos que supostamente respondem à sua pergunta.

Por enquanto, o recurso está disponível apenas para usuários Premium, apenas em inglês e focado em consultas sobre produtos ou viagens. Mas se o tempo de visualização cair no próximo trimestre, saberemos o motivo.

Aproveite o Futuro da IA Hoje Mesmo

As inovações que vimos nesta semana são apenas a ponta do iceberg do que está por vir no mundo da inteligência artificial. De comentaristas esportivos virtuais a vídeos infinitos, de agentes de escritório a avatares realistas, a tecnologia está avançando em um ritmo sem precedentes.

O mais incrível é que muitas dessas ferramentas já estão disponíveis para uso ou estarão em breve. Modelos como o Sky Reels V2 e o Utah 1.5 já estão com código aberto, permitindo que desenvolvedores independentes criem aplicações inovadoras sem grandes investimentos.

Se você trabalha com tecnologia, marketing digital ou produção de conteúdo, este é o momento de experimentar estas novas ferramentas e descobrir como elas podem transformar seu fluxo de trabalho. Não espere o futuro chegar até você – seja parte ativa desta revolução tecnológica!

Perguntas Frequentes

O que é o Live CC7B e como ele revoluciona os comentários esportivos?

O Live CC7B é um modelo de IA desenvolvido pela Universidade Nacional de Singapura capaz de assistir a jogos esportivos em tempo real e gerar comentários completos com menos de meio segundo de latência. Diferente de outros modelos, ele aprende com fragmentos incompletos de fala, o que lhe confere uma compreensão única de timing.

O que torna este modelo revolucionário é sua capacidade de funcionar em hardware relativamente modesto (uma GPU de médio porte) enquanto supera modelos muito maiores em benchmarks especializados. Nos testes, o Live CC7B de apenas 7 bilhões de parâmetros superou concorrentes com 72 bilhões de parâmetros.

Esta tecnologia pode transformar completamente transmissões esportivas digitais, permitindo que até pequenas operações ofereçam comentários profissionais em tempo real sem a necessidade de contratar narradores humanos para cada evento.

Como os novos geradores de vídeo resolvem o problema de memória para vídeos longos?

Os geradores de vídeo tradicionais baseados em difusão processam todos os quadros simultaneamente, o que consome enormes quantidades de VRAM e limita severamente a duração dos vídeos que podem ser criados. Os novos sistemas como o MAGI1 da Sand AI e o Sky Reels V2 da Sky Work resolvem esse problema de maneiras inovadoras.

O MAGI1 divide a linha do tempo em segmentos de 24 quadros, processando-os em uma sequência parcialmente paralela, como uma linha de montagem. Isso permite processar até quatro segmentos simultaneamente, economizando memória enquanto mantém a coerência do vídeo. Além disso, através de técnicas de destilação, o processo de difusão foi reduzido para apenas oito etapas.

Já o Sky Reels V2 utiliza uma técnica chamada “diffusion forcing”, que mantém os últimos 17 quadros sempre sobrepostos com o próximo bloco, garantindo que o contexto nunca se perca ao avançar na geração. Isso permite, teoricamente, criar vídeos de qualquer duração mantendo coerência visual e narrativa.

O que é o teste de Turing e por que é significativo que o GPT-4.5 tenha passado nele?

O teste de Turing, proposto pelo matemático Alan Turing em 1950, é um teste de inteligência artificial em que um avaliador humano tenta determinar qual de dois interlocutores é humano e qual é máquina, baseando-se apenas em conversas textuais. Se o avaliador não conseguir distinguir consistentemente entre o humano e a máquina, considera-se que a máquina passou no teste.

O estudo da UC San Diego mostrou que o GPT-4.5 conseguiu enganar 73% dos participantes em um teste de Turing formal, superando até mesmo alguns humanos que também participavam do teste. Mesmo quando despojado de uma persona específica, o modelo ainda enganou 36% dos avaliadores.

Isso é significativo porque representa um marco histórico na capacidade das máquinas de emular comunicação humana natural. No entanto, é importante ressaltar que passar no teste de Turing não indica consciência ou compreensão genuína – apenas a capacidade de simular linguagem humana de forma convincente. As implicações são profundas para áreas como segurança cibernética e verificação de identidade, indicando que métodos baseados apenas em “soar humano” não são mais suficientes.

Como o sistema Utah 1.5 da ByteDance controla computadores e quais são suas aplicações práticas?

O Utah 1.5 é um modelo de código aberto que opera computadores apenas observando capturas de tela. Ele trata a tela como uma grande imagem, analisa seu conteúdo, prevê onde clicar, rolar ou digitar, e então envia eventos de mouse através de um pequeno wrapper de software.

O sistema foi treinado com 50 bilhões de tokens de capturas de tela, além de traços de ação humanos e sintéticos. Diferentemente de outros sistemas de automação que dependem da estrutura DOM da página ou de identificadores específicos, o Utah 1.5 trabalha diretamente com pixels, o que o torna muito mais versátil e resistente a mudanças de interface.

As aplicações práticas são enormes, especialmente para automação de processos robóticos (RPA) em empresas. O sistema pode automatizar tarefas repetitivas em qualquer software com interface gráfica, mesmo aqueles que não foram projetados para automação. Também possui grande potencial para acessibilidade, permitindo que pessoas com deficiências físicas controlem computadores através de comandos de alto nível, e para testes de software, automatizando testes de interface de usuário de forma mais robusta que as soluções atuais.

Quais são as vantagens dos modelos chineses da Baidu (BU) em comparação com os modelos ocidentais como GPT-4?

Os modelos da Baidu (BU), como o Ernie X1 Turbo e o Ernie 4.5 Turbo, oferecem várias vantagens significativas em comparação com modelos ocidentais como GPT-4, principalmente em termos de custo-benefício.

O Ernie X1 Turbo, focado em problemas de raciocínio, custa apenas 14 centavos por milhão de tokens, aproximadamente um quarto da taxa cobrada pelo DeepSeek, enquanto ainda supera esse rival em tarefas de matemática com cadeia de pensamento. Já o Ernie 4.5 Turbo, que trabalha com imagens e texto, marca 77,7 no benchmark multimodal da BU (cinco pontos acima do GPT-4.0), enquanto os tokens de entrada custam apenas 11 centavos.

Isso representa uma redução de 80% nos custos de inferência em comparação com seu predecessor, mantendo ou melhorando a qualidade dos resultados. A principal mensagem da Baidu é democratizar o acesso a IA de alta performance, tornando possível que desenvolvedores e empresas menores utilizem modelos de linguagem avançados em escala, sem os custos proibitivos geralmente associados a essas tecnologias.

Assista ao vídeo original

Este artigo foi baseado no vídeo abaixo. Se preferir, você pode assistir ao conteúdo original:

22 horas atrás Youtube

N8n Version 2: Tudo o que Você Precisa Saber Sobre as Principais Mudanças e Melhorias

22 horas atrás Youtube

ChatGPT Gratuito vs Planos Pagos: Vale a Pena Fazer o Upgrade em 2025?

2 semanas atrás Youtube

Como Melhorar Seus Prompts de IA: Guia Completo para Resultados Profissionais em 2025