Um balanço do choque do DeepSeek
Charles Mok
À medida que a China se aproxima do Ano Novo Lunar, a DeepSeek "entrou em silêncio" no "modo de férias".[1] Com sua sede em Hangzhou deserta, o resto do mundo pondera o choque e a repercussão após o lançamento do modelo de raciocínio de inteligência artificial (IA) R1 e do modelo sem raciocínio V3. Esses modelos têm desempenho equivalente[2] ao modelo de raciocínio o1 e ao GPT-4o da OpenAI, respectivamente, por uma pequena fração do preço.
Em 27 de janeiro de 2025, o mercado de ações dos EUA e as ações de tecnologia sofreram uma das maiores quedas da história,[3] com a fabricante de chips nVidia caindo 18%, perdendo US$ 589 bilhões em valor de mercado. No entanto, as ações da empresa se recuperaram no dia seguinte em cerca de 9%.[4]
Além da turbulência causada no mercado de ações, as implicações para a atual competição de IA entre os EUA e a China continuam a se desdobrar. Para entender como o DeepSeek impactará o ecossistema global de IA, vamos considerar as cinco perguntas a seguir, com uma pergunta bônus final.
Como o DeepSeek chegou onde está hoje?
O DeepSeek começou em 2023 como um projeto paralelo[5] do fundador Liang Wenfeng, cuja empresa de fundos de hedge de negociação quantitativa, High-Flyer, utilizava IA para tomar decisões de negociação. Mas Liang começou a acumular milhares de chips nVidia já em 2021. Embora Liang, assim como o DeepSeek, tenham sido relativamente discretos e não tenham dado muitas entrevistas, em um artigo em chinês em julho de 2024,[6] ele discutiu detalhadamente sua visão tecnológica, estratégia e filosofia.
Liang foi um disruptor, não apenas para o resto do mundo, mas também para a China. Sua crença fundamental é que a maioria das empresas chinesas estava simplesmente acostumada a seguir, em vez de inovar, e sua visão era mudar isso. Para ele, o que falta à China e às empresas chinesas não é capital, mas sim confiança e a capacidade de organizar e geerenciar talentos para concretizar verdadeiras inovações.
Enquanto a maioria das outras empresas chinesas de IA se contenta em "copiar" modelos de código aberto existentes, como o Llama da Meta, para desenvolver suas aplicações, Liang foi além. Seu objetivo final é desenvolver a verdadeira inteligência artificial geral (IAG), a inteligência da máquina capaz de compreender ou aprender tarefas como um ser humano. Ele decidiu concentrar-se no desenvolvimento de novas estruturas de modelos baseadas na realidade da China, com acesso e disponibilidade limitados de chips avançados de processamento de IA.
Os talentos contratados pela DeepSeek eram novos ou recém-formados graduados e doutorandos das principais universidades chinesas. A organização da empresa era plana, e as tarefas eram distribuídas entre os funcionários "naturalmente", moldadas em grande parte pelo que os próprios funcionários queriam fazer. A organização de baixo para cima da DeepSeek como uma startup parecia tão "Vale do Silício" quanto possível, e eles pareciam ter superado seus verdadeiros rivais do Vale do Silício nos EUA em seu próprio jogo. De acordo com benchmarks,[7] o R1 da DeepSeek não apenas iguala a qualidade do OpenAI o1 com um preço 90% mais barato, como também é quase duas vezes mais rápido, embora o o1 Pro da OpenAI ainda forneça respostas melhores.
O sucesso do DeepSeek já pode sinalizar outra nova onda de desenvolvimento tecnológico chinês sob uma bandeira conjunta "pública-privada" de inovação local. Em uma entrevista de Liang[8] ao portal de notícias de tecnologia chinês 36Kr em julho de 2024, ele disse:
"Acreditamos que a tecnologia de IA da China não seguirá os passos de seus antecessores para sempre. A gigante americana de semicondutores nVidia conseguiu estabelecer sua posição atual não apenas por meio dos esforços de uma única empresa, mas também por meio dos esforços das comunidades e indústrias de tecnologia ocidentais. A indústria chinesa de IA precisa criar esse ecossistema. O desenvolvimento de chips fabricados internamente estagnou na China porque não conta com o apoio das comunidades de tecnologia e, portanto, não consegue acessar as informações mais recentes. É por isso que a China precisa de pessoas na vanguarda da tecnologia."
A DeepSeek realmente gastou menos de US$ 6 milhões para desenvolver seus modelos atuais?
De acordo com o Relatório Técnico do DeepSeek-V3,[9] publicado pela empresa em dezembro de 2024, os "custos econômicos de treinamento do DeepSeek-V3" foram cobertos por meio de seu "co-design otimizado de algoritmos, estruturas e hardware", utilizando um aglomerado de 2.048 GPUs nVidia H800 para um total de 2.788 milhões de horas de GPU para concluir as etapas de treinamento, desde o pré-treinamento, extensão de contexto e pós-treinamento, para 671 bilhões de parâmetros. O custo total do treinamento de US$5,576 milhões pressupõe um preço de aluguel de US$2 por GPU-hora. O relatório técnico observou que esse valor de custo excluiu "os custos associados a pesquisas anteriores e experimentos de ablação em arquiteturas, algoritmos ou dados".
Deve-se notar que tais parâmetros sobre a quantidade e o tipo específico de chips usados foram projetados para cumprir com os controles de exportação dos EUA lançados em 2022. De acordo com Gregory Allen,[10] diretor do Wadhwani AI Center no Center for Strategic and International Studies (CSIS), o custo total do treinamento poderia ser "muito maior", já que o valor divulgado cobriu apenas o custo da execução final e bem-sucedida do treinamento, mas não a pesquisa e experimentação anteriores. Além disso, especialistas em IA não identificados também disseram à Reuters que "esperavam que os estágios iniciais de desenvolvimento dependessem de uma quantidade muito maior de chips" e tal investimento "poderia ter custado mais de US$1 bilhão".[11] Outra fonte não identificada de uma empresa de IA familiarizada com o treinamento de grandes modelos de IA estimou à Wired que "cerca de 50.000 chips nVidia” foram provavelmente usados.[12]
Compreensivelmente, com as escassas informações divulgadas pela DeepSeek, é difícil tirar conclusões precipitadas e acusar a empresa de subestimar o custo do treinamento e desenvolvimento do V3 ou de outros modelos cujos custos não foram divulgados. A DeepSeek optou por contabilizar o custo do treinamento com base no preço do aluguel do total de horas de GPU, considerando apenas o uso. Não levou em consideração o investimento feito na compra de milhares de modelos diferentes de chips nVidia e outros custos de infraestrutura.
Com base em relatórios divulgados pela empresa, a DeepSeek comprou 10.000 chips nVidia A100, lançados pela primeira vez em 2020 e duas gerações antes do atual chip Blackwell da nVidia, antes que os A100s fossem restringidos para venda na China no final de 2023. A empresa também adquiriu e manteve um cluster de 50.000 nVidia H800s, que é uma versão mais lenta do chip H100 (uma geração antes do Blackwell) para o mercado chinês.
A DeepSeek provavelmente também tinha acesso ilimitado adicional a provedores de serviços de nuvem chineses e estrangeiros,[13] pelo menos antes que estes últimos fossem submetidos aos controles de exportação dos EUA. Mesmo que a empresa não tenha divulgado sua participação em mais chips nVidia, apenas os 10.000 chips nVidia A100 custariam perto de US$80 milhões, e 50.000 H800s custariam US$50 milhões adicionais.
Em outras palavras, comparar uma pequena parcela do custo do tempo de uso do treinamento de IA autodeclarado pela DeepSeek com o investimento total em infraestrutura para aquisição de chips de GPU ou construção de datacentros por grandes empresas de IA dos EUA não é uma comparação justa nem direta. Além disso, essa infraestrutura não é usada apenas para o treinamento inicial dos modelos — ela também é usada para inferência,[14] onde um modelo de aprendizado de máquina treinado tira conclusões de novos dados, normalmente quando o modelo de IA é usado em uma situação de usuário para responder a consultas.
Embora não haja evidências substanciais atuais para contestar as alegações de custo da DeepSeek, trata-se, no entanto, de uma afirmação unilateral de que a empresa optou por relatar seus custos de forma a maximizar a impressão de ser "a mais econômica". Apesar de a DeepSeek não ter contabilizado seu investimento total real, é sem dúvida uma conquista significativa o fato de ter conseguido treinar seus modelos para que estivessem no mesmo nível de alguns dos modelos mais avançados existentes. Sua otimização e engenharia inovadoras contornaram recursos de hardware limitados, mesmo com relatórios imprecisos de economia de custos.
O que ditará o futuro do desenvolvimento, dimensionamento ou otimização mais inovadora da IA?
O ditado "a necessidade é a mãe de todas as invenções" existe há séculos.[15] Diante das atuais restrições dos EUA à exportação de produtos e serviços de tecnologia para a China, este país assumiu a urgência resultante da escassez para intensificar seu foco e acelerar seus esforços de desenvolvimento.
Compare o cenário chinês com a indústria de IA dos EUA, que já é dominada por Big Techs e "hectocorns"[16] bem financiadas, como a OpenAI. Com uma avaliação que já ultrapassa US$ 100 bilhões, a inovação em IA tem se concentrado na construção de uma infraestrutura maior, utilizando os chips de GPU mais recentes e rápidos, para alcançar uma escala cada vez maior por meio de força bruta, em vez de otimizar os algoritmos de treinamento e inferência para conservar o uso desses recursos computacionais caros. As Big Techs e seus investidores aderem à mesma mentalidade "grande e maior", em busca de avaliações cada vez maiores e um ciclo autorrealizável de vantagens competitivas e retornos financeiros percebidos. Culturalmente, alguns argumentam que mesmo as recentes "startups fragmentadas e disruptivas", como a OpenAI há alguns anos, já "amadureceram e se tornaram o tipo de empresa grande e conectada que é pega de surpresa por rivais que se movem mais rápido".[17]
O que torna o DeepSeek particularmente interessante e verdadeiramente disruptivo é que ele não apenas alterou a economia do desenvolvimento de IA para a indústria de IA dos EUA e seus investidores, mas também já fez o mesmo com suas contrapartes chinesas de IA. Quando o DeepSeek-V2 foi lançado em junho de 2024, de acordo com o fundador Liang Wenfeng,[18] desencadeou uma guerra de preços com outras Big Techs chinesas, como ByteDance, Alibaba, Baidu, Tencent, bem como startups de IA maiores e mais bem financiadas, como a Zhipu AI. Por outro lado, em comparação com a incursão da Huawei no desenvolvimento de produtos e tecnologias de semicondutores, que muitas vezes é considerada apoiada pelo governo, parece improvável que a ascensão do DeepSeek tenha sido planejada de forma semelhante pelo governo.
Nos EUA, ao contrário da forte reação do mercado de ações, a resposta política ao DeepSeek foi bastante contida. O presidente Donald Trump o chamou de "um alerta para nossas indústrias de que precisamos nos concentrar totalmente na competição".[19] Ele também disse que considerava o DeepSeek "um desenvolvimento muito positivo", porque "em vez de gastar bilhões e bilhões, você gastará menos e, com sorte, chegará à mesma solução".
Há boas razões para Trump ser prudente em sua resposta. Poucos dias após revogar[20] a Ordem Executiva 14110,[21] de 30 de outubro de 2023, do governo anterior (Desenvolvimento e Uso Seguro, Protegido e Confiável de Inteligência Artificial), a Casa Branca anunciou o projeto de infraestrutura de IA Stargate,[22] de US$500 bilhões, com a OpenAI, Oracle e SoftBank. A indústria americana não poderia, e não deveria, mudar repentinamente de ideia sobre a construção dessa infraestrutura, mas atenção maior deveria ser dada à verificação da validade a longo prazo das diferentes abordagens de desenvolvimento.
A longo prazo, uma vez que a implantação e a adoção generalizadas de aplicações de IA sejam alcançadas, é evidente que os EUA e o mundo ainda precisarão de mais infraestrutura. Alguns analistas de mercado apontaram[23] para o Paradoxo de Jevons,[24]uma teoria econômica que afirma que "o aumento da eficiência no uso de um recurso frequentemente leva a um maior consumo geral desse recurso". Isso não significa que a indústria não deva, ao mesmo tempo, desenvolver medidas mais inovadoras para otimizar o uso de recursos dispendiosos, de hardware a energia.
Qual será o impacto político nas restrições de exportação de chips avançados dos EUA para a China?
Em comparação com a rápida revogação do decreto do ex-presidente Joe Biden sobre IA, o presidente Trump não abordou a questão das atuais restrições à exportação de chips semicondutores avançados e outros equipamentos industriais avançados para a China. É provável que o novo governo ainda esteja elaborando sua narrativa para uma "nova política", que o diferencie do governo Biden, enquanto mantém essas restrições. É claro que também existe a possibilidade de Trump estar reavaliando essas restrições à exportação no contexto mais amplo de todo o relacionamento com a China, incluindo comércio e tarifas.
A DeepSeek agora impõe nova urgência ao governo para que se posicione sobre os controles de exportação. Se as empresas chinesas ainda conseguem acessar recursos de GPU para treinar seus modelos, a ponto de qualquer uma delas conseguir treinar e lançar com sucesso um modelo de IA altamente competitivo, os EUA deveriam redobrar essas restrições à exportação? Como as restrições à exportação tendem a incentivar a inovação chinesa por necessidade, os EUA deveriam mudar e remover esses controles, permitindo que empresas americanas como a nVidia lucrem com as vendas para a China?
Em primeiro lugar, o fato de a DeepSeek ter conseguido acessar chips de IA não indica uma falha nas restrições à exportação, mas indica o efeito de atrasona implementação dessas políticas e a natureza gato-e-rato dos controles de exportação. A DeepSeek adquiriu os chips H800 da nVidia para treinamento, e esses chips foram projetados para contornar os controles originais de outubro de 2022.
Restrições adicionais um ano depois fecharam essa brecha, de modo que os chips H20 agora disponíveis que a nVidia agora pode exportar para a China não funcionam tão bem para fins de treinamento.[25] No entanto, de acordo com observadores da indústria,[26] esses H20s ainda permitem implantação de IA de ponta, incluindo inferência, e sua disponibilidade para a China ainda é uma questão a ser abordada.
Apesar dessas deficiências, a lacuna computacional entre os EUA e a China continuaria a aumentar devido aos controles de exportação, um fato citado pela DeepSeek como sua principal limitação. A empresa reconheceu uma desvantagem computacional de 4x, apesar dos ganhos de eficiência, conforme relatado pela ChinaTalk.[27] Para que os EUA mantenham essa liderança, os controles de exportação ainda são uma ferramenta inevitável que vai ser mantida e fortalecida.
Os primeiros indícios indicam que o governo Trump está considerando restrições adicionais às exportações de chips nVidia para a China, de acordo com uma reportagem da Bloomberg,[28] com foco em uma possível proibição dos chips H20s, uma versão reduzida para o mercado chinês. No entanto, a fonte também acrescentou que uma decisão rápida é improvável, já que o indicado de Trump para Secretário de Comércio, Howard Lutnick, ainda não foi confirmado pelo Senado, e o Departamento de Comércio está apenas começando a receber pessoal. Ese atraso pode significar que, assim como antes, a China pode estocar quantos H20s puder, e pode-se ter certeza de que o fará.
No entanto, no lado oposto do debate sobre as restrições à exportação para a China, há também a crescente preocupação com as tarifas impostas por Trump às importações de chips de Taiwan. No ano passado, as exportações de Taiwan para os EUA[29] aumentaram 46%, para US$111,3 bilhões, com as exportações de equipamentos de informação e comunicação — incluindo servidores de IA e componentes como chips — totalizando US$67,9 bilhões, um aumento de 81%. Esse aumento pode ser parcialmente explicado pelo que costumava ser as exportações de Taiwan para a China, que agora são fabricadas e reexportadas diretamente de Taiwan.
Em um discurso no mesmo dia da queda da bolsa de valores devido às notícias sobre o DeepSeek, Trump discursou na Convenção de Questões Republicanas da Câmara[30] e reclamou das empresas "que nos abandonaram e foram para Taiwan", e disse que aplicaria tarifas de até 100%[31] “sobre a produção estrangeira de chips de computador, semicondutores e produtos farmacêuticos para retornar a produção desses bens essenciais aos Estados Unidos".[32]
Se isso realmente acontecer, prejudicará gravemente empresas americanas como AMD, Apple, nVidia e Qualcomm, que compram da TSMC de Taiwan e outras. Essas empresas irão transferir o custo para seus compradores e consumidores finais. Para a indústria de IA dos EUA, isso não poderia vir em pior momento e pode representar mais um golpe em sua competitividade.
Embora a retomada da indústria manufatureira nos EUA leve anos para ser concretizada, mesmo com as políticas corretas, a imposição de tarifas excessivas pode prejudicar o setor e causar inflação imediata. Seria de se esperar que a retórica de Trump fosse apenas parte de sua habitual estratégia para obter concessões do outro lado. De fato, o premiê de Taiwan, Cho Jung-tai, respondeu aos comentários de Trump,[33] afirmando que o governo consideraria urgentemente a criação de mais planos de cooperação e programas futuros de assistência ao setor industrial.
Há preocupações sobre a transferência de dados, segurança e desinformação do DeepSeek?
Isaac Stone Fish, CEO da empresa de dados e pesquisa Strategy Risks, disse em sua postagem no X que "a censura e a propaganda no DeepSeek são tão difundidas e tão pró-Partido Comunista que fazem o TikTok parecer uma coletiva de imprensa do Pentágono".[34] De fato, com o hype do DeepSeek impulsionando seu aplicativo para o primeiro lugar na App Store da Apple para aplicativos gratuitos nos EUA e em 51 outros países,[35] o DeepSeek rapidamente se tornou o TikTok para aqueles que se consideram tecnicamente experientes e "sabem o que estão fazendo".
A DeepSeek não esconde que envia dados dos EUA e de outros países para a China. Sua política de privacidade afirma explicitamente: "As informações pessoais que coletamos de você podem ser armazenadas em um servidor localizado fora do país onde você reside. Armazenamos as informações que coletamos em servidores seguros localizados na República Popular da China".[36] Em seus termos de uso , também afirma claramente: "O estabelecimento, a execução, a interpretação e a resolução de disputas sob estes Termos serão regidos pelas leis da República Popular da China continental".[37]
Que tipos de dados podem estar em risco? Além de todas as conversas e perguntas que um usuário envia ao DeepSeek, bem como as respostas geradas, a revista Wired resumiu três categorias de informações que o DeepSeek pode coletar sobre os usuários:[38] informações que os usuários compartilham com o DeepSeek, informações que ele coleta automaticamente e informações que pode obter de outras fontes. Essas informações incluem informações pessoais fornecidas pelos usuários durante o cadastro, as entradas e solicitações de texto ou áudio dos usuários, todos os arquivos enviados, histórico de bate-papo e rastreamento de teclas digitadas, etc.
Como costuma acontecer, a coleta e o armazenamento de muitos dados resultarão em vazamentos . A empresa de segurança em nuvem Wiz Research descobriu recentemente um "banco de dados exposto vazando informações confidenciais, incluindo histórico de bate-papo" do DeepSeek, com mais de um milhão de linhas de registros com "informações altamente confidenciais".[39] A empresa informou o DeepSeek, que "imediatamente bloqueou a exposição".
Outra área de preocupação, semelhante à situação do TikTok, é a censura. Vários relatórios indicaram que a DeepSeek evita discutir tópicos políticos chineses sensíveis, com respostas como "Desculpe, isso está além do meu escopo atual. Vamos falar sobre outra coisa".[40] Isso não deveria ser uma surpresa, já que a DeepSeek, uma empresa chinesa, deve aderir a inúmeras regulamentações chinesas que afirmam que todas as plataformas não devem violar os "valores socialistas fundamentais" do país, incluindo o documento "Requisitos básicos de segurança para serviço de inteligência artificial generativa".[41] As empresas são obrigadas a conduzir revisões de segurança e obter aprovações antes que seus produtos possam ser lançados.
O criador de ferramentas de segurança de IA Promptfoo testou e publicou um conjunto de dados de avisos cobrindo tópicos sensíveis que provavelmente seriam censurados pela China e relatou que a censura do DeepSeek parecia ser "aplicada por força bruta" e, portanto, é "fácil de testar e detectar".[42] Ele também expressou preocupação com o uso de dados do usuário pelo DeepSeek para treinamento futuro.
Além das preocupações com os usuários que utilizam diretamente os modelos de IA da DeepSeek, executados em seus próprios servidores, presumivelmente na China e regidos pelas leis chinesas, o que dizer da crescente lista de desenvolvedores de IA fora da China, incluindo os EUA, que adotaram diretamente o serviço da DeepSeek ou hospedaram suas próprias versões dos modelos de código aberto da empresa? A empresa de busca de IA Perplexity, por exemplo, anunciou a adição dos modelos da DeepSeek à sua plataforma e informou aos seus usuários que seus modelos de código aberto DeepSeek são "completamente independentes da China" e estão hospedados em servidores em datacentros nos EUA e em países da UE.
De acordo com a empresa de segurança cibernética Ironscales, mesmo a implantação local do DeepSeek pode não ser totalmente segura.[43] Primeiro, sem uma auditoria completa do código, não é possível garantir que a telemetria oculta , ou seja, os dados enviados de volta ao desenvolvedor, sejam completamente desativados. A proteção de dados confidenciais também depende da configuração adequada do sistema e de sua proteção e monitoramento contínuos e eficazes. Em outras palavras, é difícil determinar a ausência de "backdoors" sem uma análise mais completa, o que leva tempo. Além disso, há também a questão de se a censura do DeepSeek pode persistir em uma versão murada de seu modelo.
A atual onda de entusiasmo não apenas por usuários casuais, mas também por empresas de IA em todo o mundo, para integrar o DeepSeek rapidamente, pode representar riscos ocultos para muitos usuários que utilizam diversos serviços sem sequer saber que o utilizam. Para que os desenvolvedores possam "experimentar com segurança", o DeepSeek-R1 já está disponível como uma prévia do microsserviço nVidia NIM. Da mesma forma, ele também está disponível no catálogo de modelos do Azure AI Foundry e do GitHub da Microsoft, e a Microsoft afirma ter submetido o DeepSeek-R1 a "avaliações rigorosas de segurança e red teaming, incluindo avaliações automatizadas do comportamento do modelo e extensas revisões de segurança para mitigar riscos potenciais".
Mas para usuários casuais, como aqueles que baixam o aplicativo DeepSeek em lojas de aplicativos, os riscos e danos potenciais permanecem altos. Testes mostraram que, em comparação com outros modelos de IA dos EUA, é relativamente fácil contornar as proteções do DeepSeek para escrever código que ajude hackers a extrair dados, enviar e-mails de phishing e otimizar ataques de engenharia social, de acordo com a empresa de segurança cibernética Palo Alto Networks.[44] Outra empresa de segurança, a Enkrypt AI, relatou que o DeepSeek-R1 tem quatro vezes mais probabilidade de "escrever malware e outros códigos inseguros do que o o1 da OpenAI".[45] Um pesquisador sênior de IA da Cisco comentou que o desenvolvimento de baixo custo do DeepSeek pode ter negligenciado sua segurança durante o processo.
Além disso, de acordo com a empresa de confiabilidade de informações NewsGuard, o chatbot do DeepSeek "respondeu aos prompts avançando desinformação estrangeira 35% das vezes" e "60% das respostas, incluindo aquelas que não repetiram a falsa alegação, foram enquadradas da perspectiva do governo chinês, mesmo em resposta a prompts que não fizeram nenhuma menção à China".[46] De acordo com relatos, o Diretor Administrativo da Câmara dos Representantes dos EUA já emitiu um aviso aos escritórios do Congresso de que "o DeepSeek está sob revisão pelo CAO e atualmente não está autorizado para uso oficial da Câmara".[47]
Qual é a posição do presidente Trump em relação à importância dos dados coletados e transferidos para a China pelo DeepSeek? Recentemente, em comentários sobre o TikTok, Trump minimizou as potenciais ameaças à segurança nacional dos EUA, duvidando da importância "da China espionar jovens, crianças assistindo a vídeos malucos".[48] Será que ele será tão tolerante com o DeepSeek quanto com o TikTok, ou verá níveis mais elevados de riscos pessoais e à segurança nacional que um modelo de IA pode representar?
Por outro lado, os reguladores europeus já estão agindo porque, ao contrário dos EUA, possuem leis de proteção de dados pessoais e privacidade. O regulador italiano de privacidade lançou uma investigação sobre o DeepSeek para verificar se o Regulamento Geral de Proteção de Dados (RGPD) da União Europeia é respeitado.[49] Dado que o DeepSeek admite abertamente que dados de usuários são transferidos e armazenados na China, é muito possível que seja considerado uma violação dos princípios do RGPD. De fato, o aplicativo DeepSeek foi prontamente removido das lojas de aplicativos da Apple e do Google na Itália um dia depois,[50] embora o regulador do país não tenha confirmado se o órgão ordenou a remoção. Separadamente, a agência irlandesa de proteção de dados também lançou sua própria investigação sobre o processamento de dados do DeepSeek.[51]
O DeepSeek trapaceou?
Nos dias que se seguiram ao lançamento do modelo R1 pela DeepSeek, especialistas em IA suspeitaram que a "destilação" teria sido realizada pela DeepSeek. Finalmente, em 29 de janeiro, o Financial Times noticiou que a OpenAI confirmou ter visto "algumas evidências" de destilação, que "suspeitava serem da DeepSeek".[52]
Destilação, ou "destilação do conhecimento",[53] é uma técnica de aprendizado de máquina em que o conhecimento de um modelo grande e pré-treinado, o "professor", é transferido para um modelo menor e mais compacto, o "aluno". O objetivo é permitir que o modelo do aluno tenha o mesmo desempenho do professor, mas com recursos computacionais reduzidos ou limitados. Embora a técnica seja bem conhecida e comum, a OpenAI proíbe qualquer um de seus usuários de usar a destilação para construir um modelo rival, de acordo com seus termos de uso, como no uso de "saída para desenvolver modelos que competem com a OpenAI".[54]
De acordo com a Bloomberg,[55] pesquisadores de segurança da Microsoft observaram atividades de exfiltração de grandes quantidades de dados usando a interface de programação de aplicativos (API) da OpenAI, disponíveis apenas para usuários da OpenAI com licenças pagas, no outono do ano passado. A Microsoft, uma das principais parceiras e investidoras da OpenAI, notificou a empresa, informando que as atividades eram suspeitas de serem originárias do DeepSeek.
Alguns usuários também relataram que os modelos de IA do DeepSeek frequentemente respondem a perguntas dizendo que são "IA desenvolvida pela Microsoft" ou "construída na arquitetura GPT-4 da OpenAI". A "rigidez e insistência" do modelo sobre "sua própria identidade como Microsoft Copilot" pode indicar o tipo de dados que os modelos do DeepSeek absorveram do OpenAI durante o treinamento.
Em 28 de janeiro, David Sacks, o czar da IA e das criptomoedas da Casa Branca, disse em uma entrevista à Fox que havia "evidências substanciais" de que a DeepSeek "destilou o conhecimento dos modelos da OpenAI".[56] Ele também disse que esperava que, nos próximos meses, as principais empresas de IA dos EUA tomassem medidas para "tentar impedir a destilação" para desacelerar "alguns desses modelos imitadores".
A OpenAI confirmou à Axios que reuniu "algumas evidências" de "destilação" de grupos sediados na China e está "ciente e analisando indícios de que a DeepSeek pode ter destilado indevidamente" modelos de IA.[57] A OpenAI trabalhará em estreita colaboração com o governo dos EUA para proteger sua tecnologia e seus "modelos mais capazes".
Será que tais alegações, se comprovadas, contradizem o que o fundador da DeepSeek, Liang Wenfeng, disse sobre sua missão de provar que as empresas chinesas podem inovar, em vez de apenas seguir? Nos últimos dias, o governo chinês, especificamente o Departamento de Publicidade do Comitê Provincial de Zhejiang, também aderiu à DeepSeek e publicou um artigo elogiando a inovação, a confiança, a compostura e a confiança da empresa em seus jovens talentos.[58] A alegação de "destilação" muito provavelmente desencadeará um novo debate na comunidade chinesa sobre como os países ocidentais têm usado a proteção da propriedade intelectual como desculpa para suprimir o surgimento do poder tecnológico chinês.
A comunidade tecnológica chinesa pode contrastar a abordagem "altruísta" de código aberto da DeepSeek com os modelos ocidentais de IA, projetados apenas para "maximizar lucros e valores de ações". Afinal, a OpenAI está atolada em debates sobre o uso de materiais protegidos por direitos autorais para treinar seus modelos e enfrenta uma série de processos judiciais de autores[59] e organizações de notícias.[60] A OpenAI disse no ano passado que era "impossível treinar os principais modelos de IA de hoje sem usar materiais protegidos por direitos autorais".[61] O debate continuará.
Como os modelos de IA podem ser configurados e treinados com bastante facilidade, a segurança continua sendo crucial. Apesar dos recentes avanços das empresas chinesas de semicondutores no setor de hardware, os controles de exportação de chips avançados de IA e tecnologias de fabricação relacionadas têm se mostrado um impedimento eficaz.
Por fim, que inferências podemos tirar do choque do DeepSeek?
Primeiro, os EUA ainda estão à frente em IA, mas a China está logo atrás. David Sachs, o czar da IA e das criptomoedas dos EUA, reconheceu que as empresas chinesas estão "se recuperando muito rápido",[62] já que "o modelo DeepSeek-R1 é basicamente comparável em capacidades ao modelo OpenAI o1", que foi lançado há cerca de quatro meses. Ele posiciona os EUA em uma vantagem de apenas três a seis meses sobre os chineses.
Embora o DeepSeek tenha atraído muita atenção dos avanços recentes e futuros nos modelos de IA dos EUA nas últimas semanas, espera-se que o modelo o3 anunciado, mas ainda não lançado, da OpenAI implemente capacidades aprimoradas de resolução de problemas e raciocínio lógico aprimorado.[63] O episódio do DeepSeek pode muito bem se tornar um alarme e um lembrete muito necessários para a indústria de IA dos EUA investir para melhorar a proteção de sua propriedade intelectual e aplicar as regras do jogo relacionadas ao treinamento de dados para modelos.
Em segundo lugar, o gênio saiu da lâmpada. Os EUA ou qualquer empresa de IA não podem mais depender excessivamente do escalonamento por força bruta. Mesmo que seja possível provar que a DeepSeek se envolveu em destilação que violou os termos de uso da OpenAI, ainda há inúmeras inovações técnicas inegáveis e notáveis.[64] Desde recursos aprimorados de raciocínio em cadeia de pensamento (CoT) até a nova abordagem de aprendizado por reforço (RL) adotada, a DeepSeek revelou diversas medidas de treinamento com boa relação custo-benefício.
Graças à DeepSeek, inovações semelhantes podem finalmente chamar a atenção de mais investidores do Vale do Silício. Marc Andreessen, investidor americano, postou no X que "DeepSeek R1 é o momento Sputnik da IA".[65] Tal percepção deve ser compartilhada por líderes governamentais, bem como por investidores e desenvolvedores. Se os EUA podem ver isso como seu "momento Sputnik", a China tem o mesmo direito e muito do que é necessário para aproveitar seu "momento Sputnik" também. A corrida para alcançar técnicas de raciocínio e otimização melhores e mais avançadas para treinamento em IA chegou com urgência crescente.
Terceiro, o governo e a indústria dos EUA devem perceber que a China tem um manual robusto para perturbar o ecossistema de IA liderado pelos EUA , e está mostrando sua força. Não só possui o conjunto de talentos para treinar e desenvolver modelos de IA extremamente competitivos e avançados internamente, como também consegue eliminar US$1 trilhão do valor de mercado dos EUA em um dia,[66] incluindo cerca de US$600 bilhões do valor da nVidia. O DeepSeek-R1 foi lançado "coincidentemente" no mesmo dia da posse do presidente Trump. Para a intenção e o propósito da China, provavelmente não se trata apenas de perturbar a tecnologia e a indústria, mas também de perturbar o mercado e a economia de seu adversário.
Em quarto lugar, os EUA devem redobrar seus esforços no apoio à pesquisa fundamental e ao desenvolvimento de talentos. Ritwik Gupta, pesquisador de políticas de IA na Universidade da Califórnia, Berkeley, destacou que “a China tinha um grupo muito maior de engenheiros de sistemas do que os EUA, que entendiam como obter o melhor uso dos recursos computacionais e executar modelos de forma mais barata”.[67]
Não se trata apenas de alcançar resultados com recursos limitados. Nos últimos anos, a China concentrou seus esforços de desenvolvimento de mão de obra em universidades nacionais e se beneficiou da permanência de mais talentos em tecnologia na China em vez de irem para o exterior, durante e após a COVID. Parte disso é consequência das políticas de educação e imigração dos EUA mais hostis em relação a estudantes e talentos estrangeiros. Em termos de apoio à pesquisa acadêmica e não comercial em IA, a Ordem Executiva de IA do governo Biden, que incluía apoio ao programa piloto para implementar o Recurso Nacional de Pesquisa em IA (NAIRR), foi revogada pelo governo Trump.
Além disso, a tentativa de Trump de congelar verbas federais abrangia “tudo, desde pesquisa em IA até fabricação de semicondutores”, incluindo o NAIRR sob a National Science Foundation, bem como muitos projetos de pesquisa universitária. Até mesmo o investimento de US$3,87 bilhões da empresa coreana de semicondutores SK Hynix em West Lafayette, Indiana,[68] foi suspenso devido ao congelamento do financiamento federal determinado pelo presidente, pois está vinculado a uma verba federal menor de US$ 2,1 milhões para modernizar a infraestrutura municipal local e dar suporte à nova fábrica.[69] Felizmente, Trump revogou o congelamento após apenas um dia,[70] mas o risco constante de oscilação executiva — da imigração às tarifas e à assistência federal — continuará a gerar enormes incertezas quanto ao apoio do governo dos EUA à liderança tecnológica.
Quinto, a DeepSeek também está afetando seus concorrentes chineses de IA e pode contribuir para reestruturar o futuro ecossistema de IA da China e do mundo. O fato de uma pequena subsidiária de uma startup local de serviços financeiros ter conseguido tal avanço na engenharia deu ao governo, à indústria e à população do país um enorme impulso de confiança. Muitas outras iniciativas de apoio governamental ainda estão em andamento,[71] com coordenação de outros setores críticos, incluindo financiamento de bancos estatais.
O governo chinês parece encorajar essa competição acirrada em IA internamente. A DeepSeek já desencadeou uma guerra de preços entre modelos de IA na China no ano passado.[72] O Alibaba também acaba de lançar uma nova versão de seu modelo de IA e afirma que ele supera os desempenhos de referência da DeepSeek. Em outra nota, o analista de IA Alexander Doria relatou que, embora os modelos da DeepSeek tenham sido treinados em chips nVidia, eles se basearam nos chips Ascend 910C da Huawei de inferência para gerar respostas.[73] Se isso for verdade, os usuários do DeepSeek em todo o mundo, incluindo os americanos, podem estar gerando enormes demandas e utilização dos chips da Huawei, contribuindo para o ecossistema chinês de IA e semicondutores. Esta deveria ser mais uma preocupação política para os formuladores de políticas dos EUA.
Finalmente, os EUA precisarão desenvolver uma resposta à estratégia de código aberto da China em IA e outras áreas tecnológicas. A DeepSeek e a China se orgulham da filosofia de código aberto[74] e, em parte porque não é nem mesmo uma startup de tecnologia, mas um "projeto paralelo" de um trader quantitativo, afirma que sua missão não é lucro. A empresa, até certo ponto, pegou o manto sem fins lucrativos exatamente onde a OpenAI o abandonou. A China contrastará sua "abertura" com os modelos proprietários dos EUA.
Esta é uma narrativa bem-vinda, adequada para uma nova iteração da estratégia da Rota da Seda Digital de IA da China, que deve ser música para os ouvidos de desenvolvedores e governos no Sul Global, ávidos por tecnologias de IA acessíveis que possam alavancar ao utilizar seus talentos locais para desenvolver setores de tecnologia domésticos e aplicações locais. O conceito de tecnologia de código aberto da China não se limita à IA; no entanto, ela permanece rigidamente controlada por seu governo, tornando suas plataformas e tecnologias de "código aberto" suscetíveis a vulnerabilidades e manipulação.[75]
Se a estratégia dos EUA se concentrar apenas em apoiar o investimento em Big Techs, corre o risco de perder ainda mais o mercado mundial para a China. Uma repetição da incubação não intencional da Huawei se aproxima, só que potencialmente em uma escala ainda maior. Deve ter havido uma boa razão para a OpenAI ter começado como uma iniciativa sem fins lucrativos. Agora é um bom momento para revisitar essa raiz.
(*) Publicado originalmentte em https://cyber.fsi.stanford.edu/gdpi/publication/taking-stock-deepseek-s…
*****************
Charles Mok é pesquisador acadêmico na Incubadora de Políticas Digitais Globais do Centro de Políticas Cibernéticas da Universidade Stanford, membro do Conselho de Curadores da Sociedade da Internet e membro do conselho do Centro Internacional para Transparência e Monitoramento do Comércio. Charles atuou como membro eleito do Conselho Legislativo na Região Administrativa Especial de Hong Kong, representando o eleitorado funcional de Tecnologia da Informação, por dois mandatos, de 2012 a 2020. Em 2021, fundou a Tech for Good Asia, uma iniciativa para defender o uso positivo da tecnologia para empresas e comunidades civis. Como empreendedor, Charles foi cofundador da HKNet em 1994, um dos primeiros provedores de serviços de Internet em Hong Kong, que foi adquirido pela NTT Communications em 2000. Ele foi o presidente fundador da Sociedade da Internet de Hong Kong, presidente honorário e ex-presidente da Federação de Tecnologia da Informação de Hong Kong, ex-presidente da Associação de Provedores de Serviços de Internet de Hong Kong e ex-presidente da Organização Regional At-Large da Ásia, Austrália e Ilhas do Pacífico (APRALO) da ICANN. Charles é bacharel em Engenharia Elétrica e de Computação e mestre em Engenharia Elétrica pela Universidade Purdue.
[16] A hectocorn is a financial term for a company, often a tech startup, valued at over $100 billion. The name combines the Greek prefix "hecto-" (meaning one hundred) with "unicorn" (a privately held startup valued at over $1 billion). These are also known as "super-unicorns" and represent a rare level of success and valuation. Source: https://www.dictionary.com/e/tech-science/hectocorn/