Capítulo 19 · Escala · 9 min

Maior é sempre melhor?

As leis de escala de Kaplan e Chinchilla. Por que GPT-3 estava subtreinado, e a razão ótima de 20 tokens por parâmetro.

Uma intuicao enganosa

Por anos, a industria de IA viveu sob uma crenca simples: um modelo duas vezes maior e melhor. GPT-2 (1,5 bilhao de parametros) foi superado por GPT-3 (175 bilhoes). PaLM, Megatron, Gopher — a corrida pelos parametros parecia sem fim.

Entao, em 2022, uma equipe da DeepMind publicou um paper que mudou tudo. A tese deles: os grandes modelos da epoca estavam massivamente subtreinados. Nao pequenos demais — subnutridos em dados.

O modelo que demonstrou essa tese se chamava Chinchilla.

A lei de Kaplan: a primeira formulacao

Em 2020, a OpenAI publica um paper de Jared Kaplan e colegas — "Scaling Laws for Neural Language Models" — que mostra algo notavel. Em dezenas de modelos treinados em tamanhos diferentes, a perda de validacao segue uma lei de potencia simples:

L ≈ L∞ + (C₀ / C)^α

Decodificando a formula:

  • C — o compute total injetado no treinamento (em FLOPs).
  • L — a perda de validacao no fim.
  • L∞ — a perda irredutivel: o piso abaixo do qual nao da para descer, mesmo com compute infinito. E a entropia natural da linguagem humana — sempre existe uma parte de imprevisibilidade na proxima palavra.
  • C₀ — uma constante de normalizacao que depende da arquitetura.
  • α ≈ 0,05 — o expoente da lei de potencia.

Em termos claros: dobrar o compute reduz a perda numa quantidade previsivel. A lei e surpreendentemente robusta em 7 ordens de grandeza.

Kaplan tira disso uma conclusao que vai guiar a industria por dois anos: dado um orcamento de compute, aloque a maior parte ao tamanho do modelo, pouco aos dados.

Foi exatamente o que a OpenAI fez com o GPT-3. 175 bilhoes de parametros, mas "apenas" 300 bilhoes de tokens de treinamento.

Chinchilla muda o jogo

Em 2022, Hoffmann et al. (DeepMind) refazem o experimento com uma metodologia diferente. Em vez de fixar o tamanho do modelo e variar o compute, eles exploram sistematicamente o plano (N, D) com compute constante.

A conclusao deles contradiz diretamente Kaplan: N e D devem crescer na mesma velocidade. Para minimizar a perda dado um orcamento de compute fixo, e preciso treinar um modelo de tamanho modesto em muitos dados.

Mais precisamente, a razao otima e:

D ≈ 20 × N

Para um modelo de 70 bilhoes de parametros, o otimo e da ordem de 1,4 trilhao de tokens. GPT-3 (175 bilhoes de parametros, 300 bilhoes de tokens) tinha uma razao de 1,7 — vinte vezes menos que o otimo.

A DeepMind provou isso treinando o Chinchilla: 70 bilhoes de parametros, 1,4 trilhao de tokens. Menor que o GPT-3, mais tokens, e melhor em todos os benchmarks.

O mapa do compute

No gráfico log-log, a loss decresce em lei de potência com o compute. Os sliders N (parâmetros) e D (tokens) mostram a iso-compute curve: para um orçamento dado, existe uma proporção N/D ótima — cerca de 20 tokens por parâmetro segundo Chinchilla.

Mova o ponto para explorar o plano (N, D). A diagonal Chinchilla e a linha onde cada dolar de compute e gasto de forma otima. Acima, voce treinou tempo demais um modelo pequeno demais; abaixo, voce fez o oposto.

Voce vai notar algo interessante: o LLaMA-3 esta bem acima da diagonal. Com 70 bilhoes de parametros treinados em 15 trilhoes de tokens, sua razao e de 214 — dez vezes acima do otimo Chinchilla.

Por que? Porque a Meta otimizou para outra coisa que nao a eficiencia de compute de treinamento. Eles otimizaram para o custo de inferencia. Um modelo menor treinado por mais tempo custa mais caro para treinar (um pouco) mas muito mais barato para servir em producao. Em bilhoes de requisicoes, a economia e massiva.

Alem dos parametros: a qualidade dos dados

As scaling laws nao sao o fim da historia. Varios limites aparecem.

A quantidade de dados disponivel e finita. Common Crawl, Wikipedia, GitHub, ArXiv, livros escaneados — o inventario de dados textuais de qualidade na internet nao e infinito. Varias equipes estimam que estamos chegando no muro: treinar um modelo de 1 trilhao de parametros no otimo Chinchilla exigiria 20 trilhoes de tokens, o que ultrapassa amplamente os corpora publicos limpos.

A qualidade vence a quantidade, mas so ate certo ponto. Filtrar um corpus para manter apenas os dados de alta qualidade (manuais, livros tecnicos, codigo limpo) melhora o modelo mais do que adicionar dados medianos. Mas filtrar de forma agressiva demais acaba empobrecendo a distribuicao e prejudicando a generalizacao.

As capacidades emergentes embaralham a curva. Para certas tarefas (raciocinio multi-etapa, matematica complexa, instrucoes raras), o desempenho fica plano ate um certo limiar de tamanho — e entao sobe abruptamente. Essas "emergent abilities" sao controversas: alguns pesquisadores (Schaeffer et al., 2023) mostram que elas desaparecem quando se escolhe uma metrica mais continua. Mas o fenomeno pratico permanece: modelos pequenos nao conseguem fazer certas coisas, nao importa quanto fine-tuning.

A licao pratica

Se voce vai treinar um modelo hoje, eis o que as scaling laws te dizem:

  • Compute fixo? Mire numa razao D/N proxima de 20. E o otimo de treinamento.
  • Voce vai servir o modelo em escala? Desloque a razao para cima. Um modelo menor treinado por mais tempo custa menos na inferencia — e o que fazem Meta, Mistral, e cada vez mais equipes.
  • Voce mira numa capacidade emergente? Pequenas otimizacoes nao bastam. E preciso cruzar um limiar de tamanho.
  • Voce esta com pouco dado? A qualidade, a filtragem e a diversidade pesam mais que o tamanho bruto do corpus.

As scaling laws nao dizem que e preciso crescer indefinidamente. Elas dizem que existe uma razao certa entre parametros e dados — e que passamos anos errando o lado.

Atualizado em

Leis de escala: Kaplan, Chinchilla e a proporção ótima · Step by Token