DeepSeek caută să își consolideze avantajul acasă, în China. Start-up-ul a inițiat luna trecută o vânzare de peste 1.000 de miliarde de dolari pe piețele globale de acțiuni cu un model AI la preț redus care a depășit performanțele multor concurenți occidentali, potrivit Reuters.
Acum, firma cu sediul în Hangzhou accelerează lansarea succesorului modelului R1 din ianuarie, potrivit a trei persoane familiarizate cu compania.
Deepseek planificase să lanseze R2 la începutul lunii mai, dar acum dorește să îl lanseze cât mai curând posibil, au declarat două dintre acestea, fără a oferi detalii.
Compania spune că speră ca noul model să producă o codificare mai bună și să fie capabil să raționeze în alte limbi decât engleza.
Rivalii încă analizează implicațiile lui R1, care a fost construit cu cipuri Nvidia mai puțin puternice, dar este competitiv cu cele dezvoltate la costuri de sute de miliarde de dolari de giganții tehnologici americani.
„Lansarea modelului R2 al DeepSeek ar putea fi un moment crucial în industria inteligenței artificiale”, a declarat Vijayasimha Alilughatta, director de operațiuni al furnizorului indian de servicii tehnologice Zensar. Succesul DeepSeek în crearea de modele de inteligență artificială rentabile „va stimula probabil companiile din întreaga lume să își accelereze propriile eforturi … pentru a rupe dominația celor câțiva jucători mari din domeniu”, a spus el.
R2 este de natură să îngrijoreze guvernul SUA, care vede poziția de lider în ceea ce privește AI – o prioritate națională. Lansarea sa poate mobiliza și mai mult autoritățile și companiile chineze, dintre care zeci spun că au început să integreze modelele DeepSeek în produsele lor.
Se știu puține despre DeepSeek, al cărui fondator, Liang Wenfeng, a devenit miliardar prin fondul său de hedging cantitativ High-Flyer. Liang, care a fost descris de un fost angajator drept „discret și introvertit”, nu a mai vorbit cu presa din iulie 2024.
Reuters a intervievat mai mulți foști angajați, precum și profesioniști care cunosc operațiunile DeepSeek și ale societății-mamă High-Flyer. De asemenea, a analizat articole din mass-media de stat, postări pe social-media ale companiilor și lucrări de cercetare publicate începând cu 2019.
Acestea au relatat povestea unei companii care a funcționat mai mult ca un laborator de cercetare decât ca o întreprindere cu scop lucrativ și care nu a fost constrânsă de tradițiile ierarhice ale industriei tehnologice chineze care de obicei pun mare presiune, chiar dacă a devenit responsabilă pentru ceea ce mulți investitori consideră a fi cea mai recentă descoperire în domeniul inteligenței artificiale.
Un traseu diferit
Liang s-a născut în 1985 într-un sat rural din provincia sudică Guangdong. Ulterior, a obținut diplome în ingineria comunicațiilor la universitatea de elită Zhejiang.
Unul dintre primele sale locuri de muncă a fost conducerea unui departament de cercetare la o firmă de imagistică inteligentă din Shanghai. Șeful său de atunci, Zhou Chaoen, a declarat presei de stat la 9 februarie că Liang a angajat ingineri algoritmiști premiați și a lucrat cu un „stil de management plat”.
La DeepSeek și High-Flyer, Liang a evitat în mod similar practicile giganților tehnologici chinezi cunoscuți pentru managementul rigid de sus în jos, salariile mici pentru angajații tineri și „996” – lucrul de la 9 dimineața la 9 seara șase zile pe săptămână.
Liang și-a deschis biroul din Beijing la mică distanță de Universitatea Tsinghua și Universitatea Peking, cele mai prestigioase două instituții de învățământ din China. Potrivit celor spuse de doi foști angajați, Liang intra în mod regulat în detalii tehnice și era bucuros să lucreze alături de stagiari din Generația Z și de proaspeții absolvenți care constituiau cea mai mare parte a forței de muncă. De asemenea, aceștia au povestit că de obicei lucrau opt ore pe zi într-o atmosferă de colaborare.
„Liang ne dădea controlul și ne trata ca pe niște experți. A pus constant întrebări și a învățat alături de noi”, a declarat Benjamin Liu, cercetător în vârstă de 26 de ani, care a părăsit compania în septembrie. „DeepSeek mi-a permis să-mi asum responsabilitatea pentru părțile critice ale liniei de producție, ceea ce a fost foarte interesant”.
Liang nu a răspuns la întrebările trimise prin intermediul DeepSeek.
În timp ce Baidu și alți giganți tehnologici chinezi se grăbeau să construiască versiunile lor de ChatGPT destinate consumatorilor în 2023 și să profite de boom-ul global al inteligenței artificiale, Liang a declarat anul trecut pentru publicația chineză Waves că a evitat în mod deliberat să cheltuiască mult pe dezvoltarea aplicațiilor, concentrându-se în schimb pe rafinarea calității modelului de inteligență artificială.
Atât DeepSeek, cât și High-Flyer sunt cunoscute pentru faptul că plătesc generos, potrivit a trei persoane familiarizate cu practicile lor de remunerare. La High-Flyer, nu este un lucru neobișnuit ca un cercetător de date cu vechime să câștige 1,5 milioane de yuani pe an, în timp ce concurenții plătesc rareori mai mult de 800.000, a declarat una dintre persoane, un manager de fonduri rival care îl cunoaște pe Liang.
Bunăstarea a fost finanțată de High-Flyer, care a devenit unul dintre cele mai de succes fonduri cantitative din China și care, chiar și după reglementarea guvernului asupra sectorului, încă gestionează zeci de miliarde de yuani, potrivit a două persoane din industrie.
Putere de calcul
Succesul DeepSeek cu un model de inteligență artificială low-cost se bazează pe investițiile substanțiale în cercetare și putere de calcul realizate de High-Flyer timp de zece ani, au declarat trei persoane.
Fondul cantitativ (quant fund) a fost unul dintre primii pionieri ai tranzacționării cu inteligență artificială, iar în 2020 un director de top a declarat că High-Flyer a investit „totul” în inteligența artificială prin reinvestirea a 70% din veniturile sale, în principal în cercetarea în domeniul inteligenței artificiale.
În 2020 și 2021, High-Flyer a cheltuit 1,2 miliarde de yuani pe două clustere AI de supercalculatoare. Al doilea cluster, Fire-Flyer II, a fost alcătuit din aproximativ 10.000 de cipuri Nvidia A100, utilizate pentru instruirea modelelor AI.
DeepSeek nu fusese înființat la acel moment, astfel încât acumularea de putere de calcul a atras atenția autorităților chineze de reglementare a valorilor mobiliare, a declarat o persoană care cunoaște gândirea oficialilor.
„Autoritățile de reglementare au vrut să știe de ce au nevoie de atât de multe cipuri?”, a spus persoana respectivă. „Cum aveau de gând să le folosească? Ce fel de impact ar avea asta asupra pieței?”.
Autoritățile au decis să nu intervină, într-o mișcare care avea să se dovedească crucială pentru norocul DeepSeek: SUA au interzis exportul de cipuri A100 în China în 2022, moment în care Fire-Flyer II era deja în funcțiune.
Beijingul sărbătorește acum DeepSeek, dar a instruit compania să nu se implice cu mass-media fără aprobare, potrivit unei persoane familiarizate cu gândirea oficială chineză.
Autoritățile i-au cerut lui Liang să păstreze un profil discret, deoarece erau îngrijorate că prea multă agitație în mass-media ar atrage atenția în mod inutil, a declarat persoana respectivă.
Guvernul și Ministerul Comerțului din China, precum și autoritatea de reglementare a valorilor mobiliare din China nu au răspuns la solicitările de comentarii.
Fiind una dintre puținele companii cu un cluster A100 mare, High-Flyer și DeepSeek au reușit să atragă unele dintre cele mai bune talente la cercetare din China, au declarat doi foști angajați.
„Avantajul cheie al resurselor (de calcul) vaste este că permite experimentarea la scară largă”, a declarat Liu, fost angajat.
Unii antreprenori occidentali din domeniul inteligenței artificiale, precum Alexandr Wang, CEO al Scale AI, au afirmat că DeepSeek deținea până la 50.000 de cipuri Nvidia de vârf, al căror export în China este interzis. Wang nu a prezentat dovezi pentru această afirmație și nici nu a răspuns la solicitările Reuters de a furniza dovezi.
DeepSeek nu a răspuns la afirmațiile lui Wang. Doi foști angajați au atribuit succesul companiei concentrării lui Liang pe o arhitectură AI mai rentabilă.
Start-up-ul a utilizat tehnici precum Mixture-of-Experts (MoE) și multihead latent attention (MLA), care implică costuri de calcul mult mai mici, după cum arată documentele sale de cercetare.
Tehnica MoE împarte un model AI în diferite domenii de expertiză și le activează doar pe cele legate de o interogare, spre deosebire de arhitecturile mai comune care utilizează întregul model.
Arhitectura MLA permite unui model să proceseze simultan diferite aspecte ale unei informații, ajutându-l să detecteze mai eficient detaliile cheie.
În timp ce concurenți precum Mistral din Franța au dezvoltat modele bazate pe MoE, DeepSeek a fost prima care a depins în mare măsură de această arhitectură, atingând în același timp paritatea cu modelele construite mai scump.
Prețurile practicate de DeepSeek au fost de 20 până la 40 de ori mai mici decât cele cerute de OpenAI pentru modele echivalente, au estimat analiștii de la casa de brokeraj Bernstein la începutul lunii februarie.
Deocamdată, giganții tehnologici occidentali și chinezi au anunțat că intenționează să continue să cheltuiască masiv cu inteligența artificială, însă succesul înregistrat de DeepSeek cu modelul R1 și cu modelul său anterior V3 i-a determinat pe unii să își modifice strategiile.
OpenAI a redus prețurile în această lună, în timp ce Gemini de la Google a introdus reduceri de preț la nivelurile de acces. De la lansarea lui R1, OpenAI a lansat și un model O3-Mini care se bazează pe o putere de calcul mai mică.
Adnan Masood, de la furnizorul american de servicii tehnologice UST, a declarat pentru Reuters că laboratorul său a efectuat analize comparative care au arătat că R1 utilizează de trei ori mai multe token-uri, sau unități de date prelucrate de modelul de inteligență artificială, pentru raționament decât modelul redus al OpenAI.
Adoptat de statul chinez
Chiar înainte ca R1 să atragă atenția lumii întregi, existau semne că DeepSeek a intrat în grațiile Beijingului. În ianuarie, presa de stat a raportat că Liang a participat la o întâlnire cu premierul chinez Li Qiang la Beijing, în calitate de reprezentant desemnat al sectorului IA, înaintea liderilor unor firme mai cunoscute.
Anunțul ulterior cu privire la competitivitatea modelelor sale din punct de vedere al costurilor a întărit convingerea Beijingului că poate inova mai mult decât SUA, companiile și organismele guvernamentale chineze adoptând modelele DeepSeek într-un ritm care nu a fost oferit altor firme.
Cel puțin 13 primării chineze și 10 companii energetice de stat spun că au implementat DeepSeek în sistemele lor, în timp ce giganții tehnologici Lenovo, Baidu și Tencent – proprietarul celei mai mari aplicații de social media din China, WeChat – au integrat modelele DeepSeek în produsele lor.
Liderul chinez Xi Jinping și Li „au semnalat că susțin DeepSeek”, a declarat Alfred Wu, expert în elaborarea politicilor chineze la Lee Kuan Yew School of Public Policy din Singapore. „Acum, toată lumea îl susține”.
Îmbrățișarea chineză vine în contextul în care guverne din Coreea de Sud până în Italia au eliminat DeepSeek din magazinele lor de aplicații, invocând preocupări legate de confidențialitate.
„Dacă DeepSeek devine modelul de inteligență artificială preferat de entitățile de stat chineze, autoritățile de reglementare occidentale ar putea considera că acesta este un motiv în plus pentru a intensifica restricțiile privind cipurile de inteligență artificială sau colaborările software”, a declarat Stephen Wu, expert în inteligență artificială și fondator al fondului speculativ Carthage Capital.
Limitele care ar putea fi impuse cipurilor avansate de inteligență artificială reprezintă o provocare pe care Liang a recunoscut-o.
„Problema noastră nu a fost niciodată finanțarea”, a declarat el pentru Waves în iulie. „Este embargoul asupra cipurilor din gama de vârf”.
Editor : A.C.