Capítulo 19 · Escala · 9 min
Maior é sempre melhor?
As leis de escala de Kaplan e Chinchilla. Por que GPT-3 estava subtreinado, e a razão ótima de 20 tokens por parâmetro.
Uma intuicao enganosa
Por anos, a industria de IA viveu sob uma crenca simples: um modelo duas vezes maior e melhor. GPT-2 (1,5 bilhao de parametros) foi superado por GPT-3 (175 bilhoes). PaLM, Megatron, Gopher — a corrida pelos parametros parecia sem fim.
Entao, em 2022, uma equipe da DeepMind publicou um paper que mudou tudo. A tese deles: os grandes modelos da epoca estavam massivamente subtreinados. Nao pequenos demais — subnutridos em dados.
O modelo que demonstrou essa tese se chamava Chinchilla.
A lei de Kaplan: a primeira formulacao
Em 2020, a OpenAI publica um paper de Jared Kaplan e colegas — "Scaling Laws for Neural Language Models" — que mostra algo notavel. Em dezenas de modelos treinados em tamanhos diferentes, a perda de validacao segue uma lei de potencia simples:
L ≈ L∞ + (C₀ / C)^α
Decodificando a formula:
- C — o compute total injetado no treinamento (em FLOPs).
- L — a perda de validacao no fim.
- L∞ — a perda irredutivel: o piso abaixo do qual nao da para descer, mesmo com compute infinito. E a entropia natural da linguagem humana — sempre existe uma parte de imprevisibilidade na proxima palavra.
- C₀ — uma constante de normalizacao que depende da arquitetura.
- α ≈ 0,05 — o expoente da lei de potencia.
Em termos claros: dobrar o compute reduz a perda numa quantidade previsivel. A lei e surpreendentemente robusta em 7 ordens de grandeza.
Kaplan tira disso uma conclusao que vai guiar a industria por dois anos: dado um orcamento de compute, aloque a maior parte ao tamanho do modelo, pouco aos dados.
Foi exatamente o que a OpenAI fez com o GPT-3. 175 bilhoes de parametros, mas "apenas" 300 bilhoes de tokens de treinamento.
Chinchilla muda o jogo
Em 2022, Hoffmann et al. (DeepMind) refazem o experimento com uma metodologia diferente. Em vez de fixar o tamanho do modelo e variar o compute, eles exploram sistematicamente o plano (N, D) com compute constante.
A conclusao deles contradiz diretamente Kaplan: N e D devem crescer na mesma velocidade. Para minimizar a perda dado um orcamento de compute fixo, e preciso treinar um modelo de tamanho modesto em muitos dados.
Mais precisamente, a razao otima e:
D ≈ 20 × N
Para um modelo de 70 bilhoes de parametros, o otimo e da ordem de 1,4 trilhao de tokens. GPT-3 (175 bilhoes de parametros, 300 bilhoes de tokens) tinha uma razao de 1,7 — vinte vezes menos que o otimo.
A DeepMind provou isso treinando o Chinchilla: 70 bilhoes de parametros, 1,4 trilhao de tokens. Menor que o GPT-3, mais tokens, e melhor em todos os benchmarks.
O mapa do compute
No gráfico log-log, a loss decresce em lei de potência com o compute. Os sliders N (parâmetros) e D (tokens) mostram a iso-compute curve: para um orçamento dado, existe uma proporção N/D ótima — cerca de 20 tokens por parâmetro segundo Chinchilla.
Mova o ponto para explorar o plano (N, D). A diagonal Chinchilla e a linha onde cada dolar de compute e gasto de forma otima. Acima, voce treinou tempo demais um modelo pequeno demais; abaixo, voce fez o oposto.
Voce vai notar algo interessante: o LLaMA-3 esta bem acima da diagonal. Com 70 bilhoes de parametros treinados em 15 trilhoes de tokens, sua razao e de 214 — dez vezes acima do otimo Chinchilla.
Por que? Porque a Meta otimizou para outra coisa que nao a eficiencia de compute de treinamento. Eles otimizaram para o custo de inferencia. Um modelo menor treinado por mais tempo custa mais caro para treinar (um pouco) mas muito mais barato para servir em producao. Em bilhoes de requisicoes, a economia e massiva.
Alem dos parametros: a qualidade dos dados
As scaling laws nao sao o fim da historia. Varios limites aparecem.
A quantidade de dados disponivel e finita. Common Crawl, Wikipedia, GitHub, ArXiv, livros escaneados — o inventario de dados textuais de qualidade na internet nao e infinito. Varias equipes estimam que estamos chegando no muro: treinar um modelo de 1 trilhao de parametros no otimo Chinchilla exigiria 20 trilhoes de tokens, o que ultrapassa amplamente os corpora publicos limpos.
A qualidade vence a quantidade, mas so ate certo ponto. Filtrar um corpus para manter apenas os dados de alta qualidade (manuais, livros tecnicos, codigo limpo) melhora o modelo mais do que adicionar dados medianos. Mas filtrar de forma agressiva demais acaba empobrecendo a distribuicao e prejudicando a generalizacao.
As capacidades emergentes embaralham a curva. Para certas tarefas (raciocinio multi-etapa, matematica complexa, instrucoes raras), o desempenho fica plano ate um certo limiar de tamanho — e entao sobe abruptamente. Essas "emergent abilities" sao controversas: alguns pesquisadores (Schaeffer et al., 2023) mostram que elas desaparecem quando se escolhe uma metrica mais continua. Mas o fenomeno pratico permanece: modelos pequenos nao conseguem fazer certas coisas, nao importa quanto fine-tuning.
A licao pratica
Se voce vai treinar um modelo hoje, eis o que as scaling laws te dizem:
- Compute fixo? Mire numa razao D/N proxima de 20. E o otimo de treinamento.
- Voce vai servir o modelo em escala? Desloque a razao para cima. Um modelo menor treinado por mais tempo custa menos na inferencia — e o que fazem Meta, Mistral, e cada vez mais equipes.
- Voce mira numa capacidade emergente? Pequenas otimizacoes nao bastam. E preciso cruzar um limiar de tamanho.
- Voce esta com pouco dado? A qualidade, a filtragem e a diversidade pesam mais que o tamanho bruto do corpus.
As scaling laws nao dizem que e preciso crescer indefinidamente. Elas dizem que existe uma razao certa entre parametros e dados — e que passamos anos errando o lado.
Atualizado em