Nel giro di pochi giorni, la corsa cinese all’intelligenza artificiale ha tirato la volata, e ora si fa fatica a starci dietro. Lunedì 27 la startup DeepSeek ha polverizzato Nvidia sui mercati internazionali, mentre mercoledì, nel primo giorno dell’Anno del Serpente, il colosso dell’e-commerce Alibaba ha lanciato la sua AI generativa aggiornata, che – stando a quello che dicono loro – è ancora meglio di DeepSeek, dei modelli più avanzati di OpenAI e di tutto quello che al momento si può trovare in giro.

Insomma, mentre mezza Silicon Valley era impegnata a mettersi sull’attenti di fronte a Donald Trump, sulle rive del placido lago di Hangzhou, ormai nuovo faro per i geek di tutto il mondo, si preparava l’arrembaggio della Cina ai giganti americani dell’AI. Che dal canto loro, nel giro di poche ore, sono passati dallo shock (Nvidia ha perso in un giorno quasi 600 miliardi di dollari in borsa, e anche Alphabet, Meta e Microsoft hanno passato una gran brutta giornata) all’understatement (Nvidia e Sam Altman si sono complimentati con Liang Wengfeng, fondatore di DeepSeek) alle recriminazioni (OpenAI ora accusa DeepSeek di aver copiato).

In attesa che arrivi la prossima scossa tellurica da un garage di nerd in qualche sobborgo cinese, cerchiamo allora di fare il punto sulle caratteristiche innovative di DeepSeek che hanno fatto tremare il mondo dell’hi-tech.

Da dove arriva DeepSeek

Anche se oggi è sulla bocca di tutti, di DeepSeek non si sa molto. La startup con base ad Hangzhou (la stessa città di Alibaba) è stata fondata nel luglio 2023 dal quarantenne Liang Wenfeng, ex studente della Zhejiang University con un background in ingegneria informatica ed elettronica. Liang ha iniziato la sua carriera sperimentando l’applicazione del machine learning al quantitative trading, e dando vita a una serie di fondi di investimento fra cui, nel 2015, l’High-Flyer Quantitative Investment Management.

Con High-Flyer, nel 2021, Liang ha cominciato ad acquistare migliaia di chip Nvidia A100 ad alte prestazioni, proprio fra quelli che nel 2024 sarebbero stati inclusi nelle restrizioni all’export di tecnologie cutting-edge imposte dagli Stati Uniti verso la Cina. L’idea era appunto quella di iniziare una sperimentazione sull’AI, senza preoccuparsi di raccogliere fondi e senza essere un gigante dell’hi-tech come Alibaba o ByteDance (la tech company di Tik-Tok), che già stavano ai tempi lavorando sui loro progetti di intelligenza artificiale. Uno dei suoi soci in affari, con parole che da questa settimana saranno sicuramente consegnate agli annali della storia della tecnologia, ha detto che inizialmente non lo avevano preso sul serio, vedendo in lui più che altro “un tizio molto nerd con una terribile pettinatura, incapace di articolare la sua visione”.

Quella visione, e uno stock di chip Nvidia che vari analisti hanno stimato intorno alle 50.000 unità, hanno portato il 20 gennaio al lancio del modello R1 di DeepSeek, un large language model (LLM) con prestazioni simili o migliori di OpenAI o1, gratuito e aperto (o quasi), economico, efficiente, e che ha dato uno scossone al mondo della Silicon Valley, ormai fin troppo tronfio e sicuro dei suoi vantaggi competitivi (almeno fin ad oggi).

Di più con meno

Alla base del lunedì nero della Silicon Valley ci sono innanzitutto i costi ridotti di DeepSeek R1.

Secondo Dan Ives, analista di Wedbush Securities, per sviluppare il suo modello di AI generativa Liang avrebbe speso appena 6 milioni di dollari. Se sembrano tanti, basti dire che Meta ne ha spesi più di 60 milioni per il suo Llama 3.0, e che OpenAI, Google e altri big statunitensi, secondo Goldman Sachs, hanno in programma di investire un totale di 1.000 miliardi di dollari in AI nei prossimi anni. E per aggiungere danno alla beffa, il terremoto in borsa generato da DeepSeek è arrivato appena qualche giorno dopo l’annuncio da parte di Trump della nuova venture company Stargate, che investirà 500 miliardi di dollari in progetti di intelligenza artificiale con OpenAI, Softbank e Oracle, definiti dal neo-presidente USA “il futuro della tecnologia”.

A fronte di questa pioggia di investimenti da parte americana, le tech company cinesi si sono invece trovate nell’ultimo anno messe all’angolo dai controlli sull’export dagli Stati Uniti e dai limitati fondi. “Hanno imparato ad essere molto più efficienti con le loro limitate risorse informatiche", ha osservato Matt Sheehan, ricercatore del Carnegie Endowment for International Peace, intervistato dalla MIT Technology Review.

È appunto quello che ha fatto DeepSeek. “Avere una potenza di calcolo limitata ha spinto l'azienda a innovare algoritmicamente”, ha spiegato a Nature Wenda Li, ricercatrice dell’Università di Edimburgo. Per “addestrare” R1, i ricercatori di DeepSeek hanno usato un sistema di reinforcement learning, che premia il modello ogni volta che dà una risposta corretta. “Il team – scrive Nature – ha stimato i progressi del modello in ogni fase, piuttosto che valutarlo utilizzando una rete separata. Ciò ha contribuito a ridurre i costi di formazione e di gestione”. Inoltre, i ricercatori hanno anche utilizzato un'architettura di tipo "mixture-of-experts", che consente al modello di attivare solo le parti di sé che sono rilevanti per ogni attività, risparmiando così potenza di calcolo, e quindi energia.

Insomma, DeepSeek ha dimostrato che si può fare di più con meno. E questo ha mandato all’aria un bel po’ di assunti fino ad oggi dati per scontati nel mondo degli investitori hi-tech, sollevando interrogativi sul vero costo dell’AI. “Finora nessuno aveva messo in dubbio che i migliori modelli di intelligenza artificiale si basano su enormi set di dati e un immenso potere di calcolo, premiando la scala e favorendo giganti dell'hardware come Nvidia e ASML – ha detto l’analista di Morningstar Kenneth Lamont – Ma le ultime innovazioni di DeepSeek stanno capovolgendo questa ipotesi. I nuovi modelli della startup dimostrano come i guadagni di efficienza nello sviluppo dell'intelligenza artificiale possano ridurre la dipendenza dalla mera potenza di calcolo, consentendo tariffe più basse e mettendo pressione ai titani del settore come Microsoft e Google per giustificare i loro prezzi premium”.

Per di più, DeepSeek R1 è aperto. O quasi.

Open source? No, Open weight

Subito dopo il clamore suscitato da costi ed efficienza ritenuti prima impossibili, si è diffusa la notizia che il modello rilasciato da DeepSeek fosse anche “aperto”.
Molti giornali hanno ripreso l’informazione parlando di “open source”, ma in realtà non è esattamente così. DeepSeek ha infatti rilasciato il suo modello R1 come “open weight”: significa, cioè, che ad essere “in chiaro” sono solo i parametri appresi ovvero quelli che definiscono il comportamento del modello, mentre non vengono condivisi i dati di addestramento, gli algoritmi e l’architettura. Si tratta comunque di un livello di apertura molto alto e non comune, che consente ai ricercatori di “personalizzare” il modello, studiandone i processi di ragionamento, la cosiddetta “chain of thoughts”.

Potrebbe sembrare un vantaggio di poco conto per chi usa l’AI generativa solo per scrivere le mail noiose, ma per il mondo della ricerca è una caratteristica notevole. Uno dei problemi delle intelligenze artificiali è che a volte, quando danno risultati errati o inaspettati, non si riesce a capire come ci siano arrivate: sono in pratica delle black box, delle scatole nere. Un sistema aperto come DeepSeek R1 consente invece a chi ne fa uso di seguire il ragionamento. Un bel vantaggio, scrive Nature, rispetto a modelli come o1, o3 e altri creati da OpenAI.
E anche, verrebbe da dire, un bello schiaffo morale alla ex libertaria Silicon Valley, che ora si fa dare lezioni di openness da chi deve lavorare e innovare fra censure e imposizioni di regime.

DeepSeek e la censura cinese: un falso problema

Infine, a proposito di regime, la relativa apertura di DeepSeek R1 diventa anche un antidoto alle ovvie limitazioni, diciamo così, “informative” a cui un modello nato e addestrato in un contesto dove vige la censura di Stato non può sfuggire.
In questi giorni sono girati parecchi video di tech-influencer scandalizzati perché l’AI cinese non sapeva rispondere sui fatti di Tiananmen o classificava Taiwan come parte della Cina. Non è certo una sorpresa: non serve andare fino a Pechino per verificare che Baidu, il principale motore di ricerca cinese, fa esattamente la stessa cosa. Ma a differenza di Baidu o di qualsiasi altra applicazione, a DeepSeek R1, grazie alla sua apertura, si può “insegnare” come stanno realmente le cose.
E poi c’è poco da scandalizzarsi: mentre della smaccata censura cinese è facile accorgersi, lo stesso non si può dire dei bias – culturali, sociali, politici, di genere – da cui sono affette le intelligenze artificiali occidentali. Gli stessi bias e pregiudizi che tutti noi abbiamo introiettato inconsciamente e che la maggior parte delle volte non riconosciamo neanche come tali.

 

In copertina: Solen Feyissa, Unsplash