Skip links

Inteligência Artificial que Aprende Sozinha: As Novas Fronteiras da IA com DeepSeek GRM e ChatGPT

Um fenômeno extraordinário está acontecendo no mundo da inteligência artificial. As tecnologias de IA estão evoluindo a passos largos, com novos modelos que não apenas processam informações, mas aprendem a pensar melhor por conta própria. Esta revolução silenciosa está transformando a maneira como interagimos com a tecnologia e estabelecendo novos padrões de desempenho que até recentemente pareciam inalcançáveis.

A DeepSeek acaba de lançar um sistema inovador chamado DeepSeek GRM, capaz de ensinar a si mesmo a pensar de forma mais eficiente, enquanto a OpenAI implementou um upgrade significativo na memória do ChatGPT, permitindo que ele se lembre de todas as suas interações anteriores. Essas evoluções representam um salto qualitativo na maneira como a IA se comporta e interage conosco.

Neste artigo, vamos explorar em detalhes esses avanços tecnológicos e entender como eles estão redefinindo as fronteiras da inteligência artificial. Prepare-se para descobrir um mundo onde os sistemas de IA não apenas respondem a comandos, mas evoluem a cada interação.

DeepSeek GRM: O Modelo de IA que Ensina a Si Mesmo

O DeepSeek GRM representa uma revolução na forma como os modelos de IA são treinados e como funcionam. Em vez de simplesmente aumentar o tamanho dos modelos, a DeepSeek desenvolveu uma abordagem que permite que a IA crie suas próprias regras, critique suas respostas e forneça feedback a si mesma.

Como Funciona o Sistema de Autocrítica

O coração do DeepSeek GRM é o que eles chamam de Self-Principled Critique Tuning (SPCT) ou Ajuste de Crítica Autoprincipiada. Quando você fornece várias respostas possíveis ao modelo, ele:

  1. Gera um texto com seus próprios princípios (regras que aprendeu para julgar boas respostas)
  2. Critica cada resposta em detalhes
  3. Atribui uma pontuação de 1 a 10 a cada resposta
  4. Escolhe a melhor resposta com base nessa avaliação

O que torna esse sistema único é sua capacidade de realizar “amostragem repetida no momento da inferência”. Em termos simples, o modelo pode executar seu processo de julgamento várias vezes e calcular uma média ou votar nos resultados, levando a decisões finais mais precisas.

O Processo de Treinamento em Duas Fases

O treinamento do DeepSeek GRM ocorre em duas fases principais:

  • Ajuste Rejetivo (RFT): Dá ao modelo uma noção básica de como são as críticas de qualidade, usando 1,07 milhão de dados de instruções gerais, além de 186.000 itens de dados amostrados rejeitivamente.
  • Aprendizado por Reforço Online Baseado em Regras (GRPO): O modelo compara sua previsão da melhor resposta com a resposta realmente melhor, recebendo +1 se corresponder e -1 se não corresponder.

O modelo padrão de 27 bilhões de parâmetros (baseado no Gemma 2-27B) foi treinado em 128 GPUs A100, levando aproximadamente 35 horas para completar ambas as fases. É impressionante notar que a DeepSeek também desenvolveu versões maiores do modelo, incluindo versões massivas de 236B e 671B parâmetros.

Desempenho Superior nos Benchmarks

Os resultados dos testes são extraordinários. O DeepSeek GRM de 27B, com a técnica de votação de amostragem e filtragem Meta-RM, consegue um desempenho de 72,8% em média em diversos benchmarks. Isso supera outros modelos de recompensa públicos, como o Neatron 4340B-R (70,5%), e chega a exceder o GPT-4O (71,3%) em certas comparações.

Em tarefas específicas como RewardBench, que analisa segurança e raciocínio, o modelo atinge impressionantes 90,4% com amostragem e filtragem adequadas. Mesmo em tarefas desafiadoras de matemática, quando fornecidas soluções de referência, o modelo alcança mais de 90% de precisão.

O Novo ChatGPT com Memória Aprimorada

Enquanto a DeepSeek avança com seu modelo autocrítico, a OpenAI não fica para trás. A empresa acaba de anunciar uma atualização significativa na funcionalidade de memória do ChatGPT, permitindo que ele se lembre de todas as suas conversas anteriores.

Uma IA que Cresce com Você

Essa nova capacidade de memória significa que suas interações com o ChatGPT podem agora construir-se sobre conversas anteriores, tornando as respostas muito mais personalizadas e humanizadas. Em vez de começar do zero a cada nova sessão, o ChatGPT pode referenciar discussões passadas para oferecer conselhos, escrever textos ou ajudar no aprendizado de maneira realmente adaptada a você.

Sam Altman, CEO da OpenAI, descreveu esta como uma “funcionalidade surpreendentemente ótima” e sugeriu que é um passo em direção a sistemas de IA que crescem com o usuário ao longo do tempo, tornando-se uma espécie de assistente pessoal que o conhece melhor quanto mais você o utiliza.

Controle de Privacidade na Sua Mão

É importante destacar que você mantém controle total sobre essa funcionalidade. Você pode:

  • Optar por não participar a qualquer momento nas configurações
  • Usar um modo de chat temporário onde o ChatGPT não utilizará nem armazenará memórias
  • Visualizar, gerenciar ou limpar o que ele se lembra a qualquer momento

O recurso está sendo implementado inicialmente para usuários do ChatGPT Pro e em breve chegará aos usuários Plus. Os usuários Enterprise, Edu e Team receberão a atualização nas próximas semanas, embora usuários em alguns países europeus (Reino Unido, Suíça, Noruega, Islândia e Liechtenstein) ainda não terão acesso por enquanto.

O Futuro da IA está Chegando Rapidamente

Além dessas inovações já anunciadas, há rumores sobre vários novos modelos em desenvolvimento. A DeepSeek está supostamente trabalhando em seu próximo chatbot, chamado R2, que poderá aproveitar a tecnologia DeepSeek GRM. Já a OpenAI está preparando o lançamento de uma série de novos modelos de IA, incluindo:

  • GPT-4.1: Uma versão mais refinada do GPT-4O
  • Versões Mini e Nano do GPT-4.1 otimizadas para dispositivos mais leves
  • O modelo O3 e uma versão O4 Mini

Referências a esses modelos foram encontradas no código web do ChatGPT, sugerindo que seus lançamentos podem estar iminentes.

Transforme Sua Relação com a Inteligência Artificial

O panorama da IA está mudando rapidamente, e as implicações são profundas. Estamos testemunhando a emergência de sistemas que não apenas nos ajudam a realizar tarefas, mas que aprendem e evoluem conosco. Esta nova geração de IA nos desafia a repensar como interagimos com a tecnologia e como ela pode se tornar uma extensão mais natural de nossas capacidades.

À medida que esses sistemas se tornam mais sofisticados, as possibilidades se expandem exponencialmente. Imagine um assistente de IA que não apenas conhece suas preferências, mas entende seu processo de pensamento e evolui para complementar suas habilidades de maneira única.

Experimente essas novas tecnologias por si mesmo! Se você tem acesso ao ChatGPT Plus ou Pro, explore a nova funcionalidade de memória e observe como ela transforma suas interações. Acompanhe os novos lançamentos da OpenAI e fique atento às novidades da DeepSeek e outras empresas de IA.

A revolução da IA está apenas começando, e estar na vanguarda desse movimento pode oferecer vantagens significativas, tanto pessoais quanto profissionais. Não deixe de explorar essas novas fronteiras da tecnologia!

Perguntas Frequentes

O que é o DeepSeek GRM e como ele funciona?
O DeepSeek GRM (Generative Reward Model) é um sistema de inteligência artificial desenvolvido pela DeepSeek que utiliza uma abordagem inovadora chamada Self-Principled Critique Tuning (SPCT). Este sistema permite que o modelo de IA gere seus próprios princípios de avaliação, critique diferentes respostas possíveis e atribua pontuações para determinar a melhor resposta.

O processo funciona em duas fases principais: primeiro, o modelo é treinado com Ajuste Rejetivo (RFT) para desenvolver uma noção básica de boas críticas; depois, passa por um Aprendizado por Reforço Online Baseado em Regras (GRPO) que refina sua capacidade de julgamento. O diferencial está na capacidade de realizar “amostragem repetida” durante a inferência, permitindo múltiplas avaliações do mesmo conjunto de respostas para chegar a um julgamento mais preciso.

Com essa abordagem, mesmo um modelo relativamente menor (27B de parâmetros) consegue alcançar ou superar o desempenho de modelos muito maiores em diversos benchmarks, demonstrando que a inteligência não depende apenas do tamanho, mas também da capacidade de autocrítica e autoaperfeiçoamento.

Como funciona a nova memória aprimorada do ChatGPT?
A nova memória aprimorada do ChatGPT permite que o sistema se lembre de todas as suas conversas anteriores com um usuário específico, não apenas o contexto limitado de uma única sessão. Isso significa que o ChatGPT pode fazer referências a discussões, preferências e informações compartilhadas em interações passadas, criando uma experiência muito mais personalizada e contextualizada.

Por exemplo, se você mencionou seu trabalho ou hobbies em uma conversa anterior, o ChatGPT pode incorporar esse conhecimento em futuras interações sem que você precise repetir essas informações. É como conversar com alguém que realmente se lembra de quem você é e do que vocês já conversaram antes.

O sistema foi projetado com controles de privacidade robustos, permitindo que os usuários optem por não participar, utilizem um modo de chat temporário sem memória ou visualizem e gerenciem o que o ChatGPT se lembra. Essa funcionalidade representa um passo significativo em direção a assistentes de IA que evoluem e se adaptam aos usuários com o tempo.

Quais são as principais diferenças entre as abordagens da DeepSeek e da OpenAI para melhorar a IA?
A DeepSeek e a OpenAI estão seguindo caminhos complementares, mas distintos, para avançar a inteligência artificial. A DeepSeek, com seu sistema GRM, está focada em desenvolver modelos com capacidade de autocrítica e autoaprendizado, ensinando a IA a julgar e melhorar suas próprias respostas. Esta abordagem enfatiza a “qualidade de pensamento” do modelo e sua capacidade de avaliar diferentes possibilidades.

Por outro lado, a OpenAI, com as melhorias de memória do ChatGPT, está enfatizando a continuidade e personalização das interações, criando uma IA que se adapta ao usuário e mantém um histórico de conversas. Eles também continuam desenvolvendo modelos maiores e mais capazes, como evidenciado pelos rumores sobre o GPT-4.1 e outros modelos em desenvolvimento.

Embora ambas as abordagens busquem IA mais inteligente e útil, a DeepSeek está inovando em metodologias de treinamento e autoavaliação, enquanto a OpenAI está aprimorando a experiência do usuário e a contextualização prolongada. No futuro, é provável que vejamos uma convergência dessas abordagens, com sistemas que combinam autocrítica sofisticada com memória contextual de longo prazo.

Quais são as implicações éticas e de privacidade dessas novas tecnologias de IA?
As novas tecnologias de IA, como o DeepSeek GRM e o ChatGPT com memória aprimorada, levantam importantes questões éticas e de privacidade. À medida que os sistemas de IA se tornam mais capazes de lembrar interações anteriores e fazer julgamentos autônomos, surgem preocupações sobre como essas informações são armazenadas, utilizadas e protegidas.

Para o ChatGPT com memória aprimorada, a OpenAI implementou controles de privacidade que permitem aos usuários gerenciar o que a IA lembra. No entanto, há questões válidas sobre quem tem acesso a esses dados, por quanto tempo são armazenados e como podem ser usados para treinar futuros modelos. Além disso, à medida que a IA se torna mais personalizada, aumenta o risco de criar “bolhas de informação” ou reforçar vieses existentes.

No caso do DeepSeek GRM, sua capacidade de fazer julgamentos autônomos levanta questões sobre transparência e responsabilidade. Quando um modelo desenvolve seus próprios princípios para avaliar respostas, como podemos garantir que esses princípios estejam alinhados com valores humanos e éticos? A capacidade de entender e auditar esses sistemas torna-se ainda mais crucial à medida que eles ganham autonomia em seus processos de pensamento.

Como posso aproveitar esses avanços em IA para beneficiar meu trabalho ou vida cotidiana?
Para aproveitar ao máximo esses avanços em IA, comece explorando as novas funcionalidades disponíveis nos sistemas que você já utiliza. Se você tem acesso ao ChatGPT Plus ou Pro, experimente a memória aprimorada para ver como ela pode tornar suas interações mais eficientes, permitindo conversas contínuas sobre projetos complexos ou aprendizado acumulativo sem repetições desnecessárias.

Para profissionais em áreas técnicas, acompanhar o desenvolvimento de sistemas como o DeepSeek GRM pode oferecer insights sobre como criar processos mais robustos de verificação e validação em seus próprios projetos. As metodologias de autocrítica e avaliação múltipla podem ser adaptadas para melhorar processos de controle de qualidade, mesmo sem usar IA.

No dia a dia, você pode começar a interagir com assistentes de IA de maneira mais conversacional e menos transacional. Em vez de fazer perguntas isoladas, tente construir um diálogo contínuo que permita ao sistema aprender suas preferências e contexto. Experimente também combinar diferentes ferramentas de IA para tarefas específicas – por exemplo, usando um sistema para brainstorming inicial e outro para refinamento e crítica.

Lembre-se que estes avanços são apenas o começo. Manter-se informado sobre novas ferramentas e técnicas, e estar disposto a experimentar diferentes abordagens, permitirá que você descubra os métodos mais eficazes para suas necessidades específicas.

Assista ao vídeo original

Este artigo foi baseado no vídeo abaixo. Se preferir, você pode assistir ao conteúdo original: