O que é a gestão de memória de IA?

A disciplina de armazenar, organizar, pontuar, recuperar e expirar o conhecimento que um sistema de IA acumula ao longo do tempo. É o que separa uma ferramenta de chat que esquece cada conversa de um colaborador de IA que aprende com cada interação.

Porquê três camadas (memórias, episódios, procedimentos)?

Factos, eventos e fluxos de trabalho respondem a perguntas diferentes. Misturá-los produz pior recuperação. As memórias armazenam factos discretos e preferências, os episódios armazenam resumos de conversa, os procedimentos armazenam fluxos de trabalho aprendidos. Cada camada tem as suas próprias regras de recuperação e ciclo de vida.

Como decide a pontuação o que recuperar?

Cinco fatores ponderados: relevância (50%, correspondência semântica + palavra-chave), importância (15%), confiança (15%), recência (10%), frequência (10%). A relevância domina para que a memória certa vença a mais recente — isto previne a armadilha do viés de recência.

O que é o ciclo de vida da memória?

Extração (a cada 4 mensagens, 0-30 memórias), deduplicação (Jaccard 60% + 3 palavras-chave partilhadas), consolidação (fundir quase-duplicados mantendo a maior confiança) e expiração (importância < 0.1 e não usadas durante 120 dias). Isto previne o inchaço de memória que degrada a qualidade da recuperação.

Gestão de memória de IA: guia completo 2026

Abril 2026 · 12 min de leitura · Fran Olivares, Fundador da OlivaresAI

A gestão de memória de IA é a disciplina de armazenar, organizar, pontuar, recuperar e expirar o conhecimento que um sistema de IA acumula ao longo do tempo. Em 2026 é a diferença entre um chatbot descartável e um verdadeiro colaborador. O padrão é uma arquitetura em três camadas (memórias / episódios / procedimentos) mais pontuação de cinco fatores (relevância 50% / importância 15% / confiança 15% / recência 10% / frequência 10%) mais um ciclo de vida completo (extrair → deduplicar → consolidar → expirar).

A gestão de memória de IA é a disciplina de armazenar, organizar, pontuar, recuperar e expirar conhecimento que um sistema de IA acumula ao longo do tempo. Em 2026, tornou-se o diferenciador crítico entre ferramentas de IA que parecem chatbots descartáveis e sistemas de IA que funcionam como verdadeiros colaboradores. Este guia cobre tudo: das decisões arquiteturais fundamentais aos detalhes práticos dos algoritmos de pontuação e da montagem de contexto.

Porque é que a gestão de memória de IA importa?

Sem gestão de memória, cada conversa de IA é um evento isolado. O utilizador explica o mesmo contexto repetidamente. A IA comete os mesmos erros pelos quais foi corrigida ontem. Decisões tomadas há três semanas são invisíveis. Isto não é um pequeno inconveniente — é uma falha arquitetural fundamental que limita a IA de ser útil em qualquer fluxo de trabalho sustentado.

O custo é real: um estudo da Deloitte estimou que os trabalhadores do conhecimento gastam 20% do seu tempo a procurar ou a recriar informação que já existe. Quando a sua IA não tem memória, essa percentagem piora, não melhora. Está a pagar por inteligência que esquece tudo o que aprende.

Quais são as três camadas da memória de IA?

A gestão de memória eficaz requer mais do que um armazenamento plano de chave-valor. A Alma usa uma arquitetura em três camadas que reflecte a forma como a cognição humana realmente funciona:

1. Memórias semânticas (factos e preferências)

São pedaços discretos de conhecimento: "O utilizador prefere TypeScript a JavaScript", "O projeto usa PostgreSQL 16", "Prazo do cliente é 15 de março". Cada memória tem metadados — uma categoria, pontuação de importância (0.0 a 1.0), nível de confiança, conversa de origem e um embedding vetorial para pesquisa semântica. As memórias são a base. Respondem à pergunta: o que sabe a IA sobre este utilizador?

2. Episódios (resumos de conversa)

Os episódios são registos comprimidos do que aconteceu em conversas anteriores. Não a transcrição completa — um resumo estruturado: o que foi discutido, o que foi decidido, o que mudou. Os episódios respondem à pergunta: o que aconteceu ao longo do tempo? Dão à IA um sentido de narrativa e progressão.

3. Procedimentos (fluxos de trabalho aprendidos)

Os procedimentos são padrões passo a passo que a IA aprendeu com interações repetidas. "Quando o utilizador pedir para fazer deploy, primeiro verifique a suite de testes, depois corra a migração, depois faça deploy para staging." Os procedimentos respondem à pergunta: como deve a IA comportar-se em situações específicas?

Como decide a pontuação de memória de IA o que recuperar?

Armazenar memórias é fácil. Recuperar as memórias certas no momento certo é o problema difícil. A Alma usa um sistema de pontuação multifator com cinco dimensões ponderadas:

Relevância (50%) — Quão semanticamente próxima está esta memória da conversa atual? Medida por semelhança de cosseno entre embeddings vetoriais.
Importância (15%) — Quão crítica é esta memória? Factos declarados pelo utilizador pontuam mais alto do que observações inferidas.
Confiança (15%) — Quão fiável é a fonte? Declarações diretas do utilizador recebem 1.0, inferências do LLM recebem 0.7, padrões observados recebem 0.5.
Recência (10%) — Quão recentemente foi esta memória criada ou acedida? O decaimento exponencial impede que informação obsoleta domine.
Frequência (10%) — Com que frequência é esta memória referenciada? Memórias usadas com frequência são reforçadas.

Os pesos são deliberados. A relevância é dominante porque o objetivo primário é encontrar a memória certa para o contexto atual. A recência é deliberadamente baixa — um facto de há três meses continua a ser um facto. Isto previne o problema do "viés de recência" em que os sistemas de IA priorizam informação nova simplesmente por ser nova.

Como transforma a montagem de contexto a memória num system prompt?

Memória sem recuperação é uma base de dados, não inteligência. A montagem de contexto é o processo que transforma memórias armazenadas num system prompt útil. Na Alma, isto acontece em menos de 100 ms:

Expansão da consulta — A mensagem do utilizador é embebida e usada para pesquisar nas três camadas de memória em paralelo.
Recuperação de candidatos — Até 100 candidatos da Vectorize (pesquisa semântica) mais correspondências de palavra-chave.
Pontuação e ordenação — O sistema de pontuação multifator ordena todos os candidatos.
Orçamento de tokens — As memórias, episódios e procedimentos mais bem pontuados são selecionados dentro do orçamento de tokens do plano do utilizador.
Construção do prompt — Os blocos Soul (identidade, personalidade, regras) têm prioridade, depois memórias, depois episódios, depois procedimentos.

Como é gerido o ciclo de vida da memória de IA?

As memórias não são permanentes por defeito. A Alma implementa um ciclo de vida completo:

Extração — A cada 4 mensagens, o processador em segundo plano extrai 0-30 memórias da conversa usando Claude Haiku.
Deduplicação — Novas memórias são verificadas contra as existentes usando semelhança de Jaccard (limiar de 60% com 3+ palavras-chave partilhadas).
Consolidação — Memórias duplicadas ou quase duplicadas são fundidas, preservando a maior confiança e a fonte mais recente.
Expiração — Memórias com importância abaixo de 0.1 que não foram acedidas em 120 dias são candidatas à expiração.

Este ciclo de vida previne o problema da "inchaço de memória" em que sistemas de IA acumulam milhares de memórias de pouco valor que degradam a qualidade da recuperação.

Como devo arquitetar o meu próprio sistema de memória de IA?

Se está a construir o seu próprio sistema de memória de IA, eis as decisões arquiteturais que mais importam:

Separe armazenamento de recuperação — A sua base de dados vetorial não é o seu sistema de memória. Precisa de pontuação, gestão de ciclo de vida e montagem de contexto por cima.
Use pesquisa híbrida — A pesquisa puramente semântica falha correspondências exatas. A pesquisa puramente por palavra-chave falha conexões conceptuais. Combine ambas.
Orçamente a sua janela de contexto — Injetar tudo o que a IA sabe é pior do que injetar nada. Priorize impiedosamente.
Torne as memórias editáveis — Os utilizadores precisam de corrigir, eliminar e reorganizar o que a IA sabe. Um sistema de memória opaco é uma responsabilidade de confiança.

Ou salte completamente o trabalho de infraestrutura: a Alma fornece tudo isto de origem. REST API completa, servidor MCP e JavaScript SDK para programadores que querem integrar memória persistente nas suas próprias ferramentas.

See plans