Uma nova pesquisa revelou que o treinamento da IA da DeepSeek não custou US$ 6 milhões, mas sim um valor muito mais alto. Descubra!
Uma recente análise da SemiAnalysis revelou que o custo real de treinamento da inteligência artificial (IA) da DeepSeek é significativamente maior do que se pensava anteriormente.
Embora estimativas iniciais sugerissem um investimento de aproximadamente US$ 6 milhões, o relatório indica que o valor real alcança impressionantes US$ 1,3 bilhão.
Desvendando o mito dos US$ 6 milhões
A estimativa inicial de US$ 6 milhões considerava apenas as despesas de pré-treinamento com GPUs, negligenciando investimentos substanciais em pesquisa e desenvolvimento, infraestrutura e outros custos essenciais acumulados pela empresa.
O relatório destaca que o gasto total de capital em servidores (CapEx) da DeepSeek chega a aproximadamente US$ 1,6 bilhão, com uma parte considerável desse valor direcionada à operação e manutenção de seus extensos clusters de GPUs.
Infraestrutura robusta e investimentos em hardware
A DeepSeek possui acesso a cerca de 50.000 GPUs da série Hopper, incluindo modelos como H800s, H100s e H20s, específicos para cada país, produzidos pela NVIDIA em resposta às restrições de exportação dos EUA.
Essa diversificação no inventário de hardware reflete decisões estratégicas de fornecimento e eficiência operacional da empresa.
Estrutura organizacional e eficiência operacional
Diferentemente de alguns dos maiores laboratórios de IA, a DeepSeek opera seus próprios data centers e adota um modelo simplificado que contribui para sua agilidade e eficiência. Essa capacidade de adaptação rápida é vital em um cenário de IA cada vez mais competitivo.
Em termos de desempenho, o modelo R1 da DeepSeek demonstra capacidades de raciocínio comparáveis ao o1 da OpenAI.
No entanto, não é considerado o líder indiscutível em todas as métricas de desempenho. Embora a estratégia de preços da DeepSeek tenha recebido elogios, é importante notar que o Gemini Flash 2.0 do Google, com capacidades semelhantes, mostra-se ainda mais econômico quando acessado por meio de serviços de API.
Isso coloca a DeepSeek diante do desafio de equilibrar desempenho e custo para garantir seu sucesso futuro.
Uma inovação notável destacada no relatório é a tecnologia Multi-Head Latent Attention (MLA), que reduz significativamente os custos de inferência em impressionantes 93,3% por meio da redução do uso de cache de chave-valor (KV). Essa abordagem representa um grande avanço em direção a soluções de IA mais econômicas.
Especialistas sugerem que as inovações da DeepSeek provavelmente serão rapidamente adotadas por laboratórios ocidentais de IA que buscam manter-se competitivos.
O futuro da IA chinesa
Embora haja otimismo quanto a possíveis melhorias e ganhos de eficiência, a SemiAnalysis alerta para desafios externos.
O relatório especula que os custos operacionais podem cair ainda mais, impulsionados pela capacidade da DeepSeek de se adaptar rapidamente em comparação com suas contrapartes maiores e mais burocráticas.
No entanto, a ampliação das operações em meio ao aumento dos controles de exportação dos EUA representa um obstáculo significativo que a DeepSeek deve superar com cautela.
Com informçaões de SemiAnalysis.