DeepSeek: Nincs miért pánikolni?

Kínai fejlesztésű AI-alkalmazás rengette meg az amerikai AI-chatbotok vezető pozícióját, de csak hosszútávon derülhet ki, mi is ennek a valódi jelentősége. A DeepSeek jelentős előrelépést hoz abban, hogy a meglévő AI-rendszerek olcsóbbak és hozzáférhetőbbek legyenek, de lényegében már kitalált technológiák optimalizálásáról van szó, így a vélemények megoszlanak azzal kapcsolatban, van-e oka pánikolni az amerikai fejlesztőknek.
Hétfőn a kínai DeepSeek R1 által fejlesztett AI-asszisztens chatbotja elérte az első helyet az amerikai Apple App Store ingyenes alkalmazásainak ranglistáján, ezzel megelőzve az OpenAI népszerű ChatGPT-jét. Ez a jelentős esemény a tőzsdén is hullámokat vert: az Nvidia számára különösen nehéz napot hozott, mivel részvényeinek ára 17%-kal csökkent, ami 600 milliárd dollár elvesztését jelenti a chipgyártó piaci értékében. Ez a rekordmennyiség az Egyesült Államok történetének legnagyobb egynapos értékcsökkenése egy vállalat esetében. A részvényeladások nyomán kialakult zűrzavar számos kérdést vetett fel, például hogy valóban szükség van-e az iparág hatalmas finanszírozási köreire és milliárd dolláros értékelésekre, valamint hogy a generatív AI körüli lufi nem készül-e kipukkadni.
A DeepSeek iránti érdeklődés az utóbbi napokban robbanásszerűen megnőtt, ám a hónap elején már felfutó tendenciát mutatott, különösen az R1 modell bejelentésének hatására. A startup állítja, hogy ez a modell az OpenAI o1 teljesítményével vetekszik. A január 20-án bemutatott R1 korai tesztjei alapján úgy tűnik, hogy a teljesítménye kémiai, matematikai és programozási feladatokban valóban párhuzamba állítható az o1 eredményeivel.
Bár a DeepSeek chatbot is a modern mesterséges intelligencia egyik terméke, nem mentes a kihívásoktól, amelyek sok más chatbotot is érintenek. Például, amikor a kínai elnök, Hszi Csin-Ping neve kerül szóba, a chatbot hajlamos elkerülni a témát, sőt, néha egészen meglepő módon még az ő létezését is kétségbe vonja. A felhasználói visszajelzések alapján a válaszidők is hosszabbak lehetnek a vártnál, és a válaszok néha bizonytalanságot, úgynevezett "hallucinációt" is tartalmazhatnak. Ezért a DeepSeek nem tekinthető tökéletes megoldásnak, amit a közösségi fórumokon megosztott teszteredmények is megerősítenek. Érdekesség, hogy az R1 modell, amely az MIT licence alatt készült, szabadon újrafelhasználható, ugyanakkor nem teljesen nyílt forráskódú, mivel a képzéséhez használt adatok nem hozzáférhetők.
A szétszteroidozott diversity alkonya Évtizedekben mérhető folyamatokat nem lehet profitorientált cégek asszisztálásával pár év alatt lezavarni, DEI csomagolásban.
A legélénkebb vita arról zajlik, hogy az olcsó kínai AI-modell megjelenése valóban megváltoztatja-e az eddigi verseny dinamikáját. Casey Newton, a Platformer technológiai hírlevél szerzője szerint érdemes figyelembe venni, hogy egyelőre nem tudni, mi lesz hosszútávon a DeepSeek stratégiája. A startupot 2023-ban alapította Liang Wenfeng, a High-Flyer fedezeti alap társalapítója. A DeepSeek szerint a legújabb AI-modelleket az Nvidia gyengébb teljesítményű Nvidia H800-as (csökkentett képességű) chipjeiből építették, amelyek nincsenek tiltva Kínában - ez pedig arra utal, hogy a csúcstechnológia nem feltétlenül szükséges az AI fejlesztéshez.
A DeepSeeknek jelenleg nincs kiforrt üzleti modellje. A legtöbb nagy amerikai AI-laboratórium számára az ideális megoldásnak eddig a szolgáltatásfejlesztés és annak nyereséges értékesítése tűnik a járható útnak. A DeepSeek jelenleg meglehetősen altruista, könnyen hozzáférhető technológiával, de ez bármikor változhat: a startup idővel előfizetéseket vezethet be, vagy új korlátozásokat állíthat be a fejlesztői API-kra. Egy sejtés szerint a vállalat később akár átveheti a felhasználói adatokat, hogy azok a fedezeti alaphoz kerüljenek. Jun Rong Yeap, az IG Asia munkatársa szerint is csak hosszabb távon fog kiderülni, hogy a DeepSeek életképes, olcsóbb alternatívának bizonyul-e, a fő aggodalom épp ezért, hogy az amerikai technológiai óriáscégek árképzési ereje nem kerül-e veszélybe.
Newton rámutat arra, hogy a DeepSeek modelljei alapvetően amerikai innovációkra építenek, ami gyakran háttérbe szorul a diskurzusban. Az amerikai AI-laboratóriumok által kifejlesztett nagy nyelvi modellek és a legújabb érvelési modellek mögöttes architektúráját használták fel. Ugyanakkor kétségtelen, hogy a startup ügyesen optimalizálta ezt az architektúrát régi hardverekre és alacsonyabb számítási kapacitásra. Emellett a nyílt forráskódú laborok is jelentős előrelépéseket tettek a reverse-engineering terén. A legnagyobb meglepetés azonban az, hogy míg az OpenAI, az Anthropic és a Google hatalmas összegeket fektetnek a modellek skálázásába és az ügyfelek kiszolgálásába, a kínai alternatíva állítólag az élen járó AI-fejlesztő cégek által képzésre fordított költségek töredékéből jöhetett létre.
A becslések eltérnek azzal kapcsolatban, hogy mennyi lehetett a DeepSeek technológiájának pontos fejlesztési költsége és energiafogyasztása. A becslések szerint mindössze 5,6 millió dollárba került a modell betanításához szükséges hardver bérlése, míg a Meta Llama 3.1 405B esetében ez több mint 60 millió dollár, a GPT-4 képzésére költött 100 millió dollárról nem is beszélve. Egyes kutatók szerint ez a momentum egyébként már előre sejthető volt: mármint hogy nyílt forráskóddal foglalkozó vállalatok visszafejtik a nagy laboratórumok munkáját, és törvényszerűnek tekinthető az is, hogy az AI-modellek képzési költsége idővel drámaian csökkenni kezd. Ethan Mollick, a Pennsylvaniai Egyetem Wharton Iskola professzora szerint egy GPT-4 szintjéhez hasonlóan teljesítő AI-modell képzési költségei 1000-szeresére, töredékére csökkentek az elmúlt 18 hónap során.
Fontos beszédtémaként merülhet fel, hogy a DeepSeek nem tesz említést a biztonsági kérdésekről. Sokan meglepődnének, ha kiderülne, hogy a csapatban egyáltalán foglalkozik valaki etikai és biztonsági kérdésekkel. A gyors növekedést és innovációt támogató kínai cégek láttán elképzelhető, hogy az amerikai vállalatok is háttérbe szorítják a biztonsági intézkedéseket, vagy legalábbis csökkentik a ráfordított erőforrásaikat a jövőben. Eközben pedig az AI legégetőbb biztonsági problémái továbbra is megoldatlanok. A Biden-adminisztráció már bevezetett néhány enyhe korlátozást az amerikai AI-laboratóriumok működésére vonatkozóan egy végrehajtási rendelet keretében, ám ezt Trump már az első napon hatályon kívül helyezte.
A kínai alternatíva egy újabb lényeges aspektust hoz a felszínre: mindezt annak ellenére sikerült megvalósítani, hogy az Egyesült Államok már évek óta intenzíven próbálja elzárni Kínát a kritikus amerikai technológiákhoz való hozzáféréstől. A DeepSeek példája alapján sokan úgy vélik, hogy ez a megközelítés nem csupán eredménytelen, de kifejezetten ellenkező hatású is, mivel a kínai kormányzat még inkább támogatja a hazai innovációkat és fejlesztéseket.
Ezen gondolat alátámasztásául említhető még az elmúlt évekből, hogy a Huawei sem adta fel, és piacra dobta a Mate 60 okostelefont, miközben a TikTok, a Shein és a Temu mind domináns versenyzőkké váltak a saját piacukon, szintén a kínai szolgáltatások erejét mutatva. Az elmúlt hat évben kivetett vámok, szankciók és exportkorlátozások ellenére Kína domináns szereplő tud maradni a legtöbb iparban. Ugyan az USA sikeresen őrzi saját piacát, de ettől még más országokban egyre többen vezetnek kínai elektromos autókat, használnak kínai appokat és szolgáltatásokat.
Az egyik álláspont szerint a Biden-adminisztráció chipexporttal kapcsolatos korlátozásai nem hozták meg a várt eredményeket, míg a másik oldal véleménye szerint nem lehet ilyen egyértelmű következtetéseket levonni, mivel az exportellenőrzések viszonylag friss intézkedések, és időre van szükség ahhoz, hogy valódi hatásuk érvényesüljön. A jövőbeni exportellenőrzések legfontosabb következménye az lehet, hogy Kína számítási kapacitása továbbra is elmarad az Egyesült Államokétól, ami megnehezíti a fejlett mesterséges intelligencia modellek széles körű alkalmazását és üzemeltetését, így a kínai ambíciók megvalósítása sem biztos, hogy sikerrel jár.