Testen van de “Slimste ter Wereld” Grok3

AIPU WATON-GROEP (1)

Invoering

Denkt u dat Grok3 het "eindpunt" zal zijn van vooraf getrainde modellen?

Elon Musk en het xAI-team lanceerden officieel de nieuwste versie van Grok, Grok3, tijdens een livestream. Voorafgaand aan dit evenement tilde een aanzienlijke hoeveelheid gerelateerde informatie, in combinatie met Musks 24/7 promotiehype, de wereldwijde verwachtingen voor Grok3 naar ongekende hoogten. Slechts een week geleden verklaarde Musk vol vertrouwen tijdens een livestream, tijdens een commentaar op DeepSeek R1: "xAI staat op het punt een beter AI-model te lanceren." Uit de live gepresenteerde gegevens blijkt dat Grok3 naar verluidt alle huidige mainstream modellen heeft overtroffen in benchmarks voor wiskunde, wetenschap en programmeren. Musk beweerde zelfs dat Grok3 gebruikt zal worden voor rekentaken gerelateerd aan de Mars-missies van SpaceX en voorspelde "doorbraken op Nobelprijsniveau binnen drie jaar". Dit zijn echter momenteel slechts Musks beweringen. Na de lancering testte ik de nieuwste bètaversie van Grok3 en stelde ik de klassieke strikvraag voor grote modellen: "Welke is groter, 9.11 of 9.9?" Helaas kon de zogenaamd slimste Grok3, zonder enige kwalificatie of markering, deze vraag nog steeds niet correct beantwoorden. Grok3 slaagde er niet in de betekenis van de vraag nauwkeurig te identificeren.

 

Deze test trok al snel de aandacht van veel vrienden. Toevalligerwijs lieten verschillende vergelijkbare tests in het buitenland zien dat Grok3 moeite had met eenvoudige natuurkunde- en wiskundevragen zoals "Welke bal valt als eerste van de Toren van Pisa?". Daarom werd hij humoristisch omschreven als "een genie dat geen simpele vragen wil beantwoorden."

640

Grok3 is goed, maar niet beter dan R1 of o1-Pro.

Grok3 ondervond in de praktijk "mislukkingen" bij veel algemene kennistests. Tijdens het xAI-lanceringsevenement demonstreerde Musk hoe hij Grok3 kon gebruiken om de personageklassen en effecten van de game Path of Exile 2 te analyseren. Hij beweerde dat hij die game vaak speelde, maar de meeste antwoorden van Grok3 waren onjuist. Musk merkte dit voor de hand liggende probleem tijdens de livestream niet op.

 

Deze fout leverde niet alleen verder bewijs op voor buitenlandse internetgebruikers om Musk te bespotten omdat hij "een vervanger had gevonden" in gaming, maar riep ook aanzienlijke zorgen op over de betrouwbaarheid van Grok3 in praktische toepassingen. Voor zo'n "genie", ongeacht zijn daadwerkelijke mogelijkheden, blijft de betrouwbaarheid ervan in extreem complexe toepassingsscenario's, zoals Mars-verkenning, twijfelachtig.

 

Veel testers die weken geleden toegang kregen tot Grok3, en degenen die gisteren pas een paar uur de mogelijkheden van het model hebben getest, komen tot dezelfde conclusie: "Grok3 is goed, maar niet beter dan R1 of o1-Pro."

640 (1)

Een kritisch perspectief op "Disrupting Nvidia"

In de officieel gepresenteerde PPT tijdens de release, werd aangetoond dat Grok3 een "ver voorsprong" had in de Chatbot Arena, maar hierbij werd slim gebruikgemaakt van grafische technieken: de verticale as op het scorebord toonde alleen resultaten in het scorebereik van 1400-1300, waardoor het oorspronkelijke verschil van 1% in de testresultaten in deze presentatie uitzonderlijk significant leek.

640

In de werkelijke modelresultaten loopt Grok3 slechts 1-2% voor op DeepSeek R1 en GPT-4.0, wat overeenkomt met de ervaringen van veel gebruikers in praktische tests, waar "geen merkbaar verschil" werd gevonden. Grok3 overtreft zijn opvolgers slechts met 1%-2%.

640

Hoewel Grok3 hoger scoort dan alle momenteel publiekelijk geteste modellen, nemen velen dit niet serieus: xAI is immers al eerder bekritiseerd vanwege "scoremanipulatie" in het Grok2-tijdperk. Omdat het scorebord de lengte van antwoorden bestrafte, daalden de scores aanzienlijk, wat ertoe leidde dat insiders in de branche vaak kritiek uitten op het fenomeen "hoge scores maar lage vaardigheden".

 

Of het nu gaat om "manipulatie" van het klassement of ontwerptrucs in illustraties, ze onthullen xAI en Musks obsessie met het idee om "de koploper te zijn" in modelmogelijkheden. Musk betaalde een hoge prijs voor deze marges: tijdens de lancering pochte hij over het gebruik van 200.000 H100 GPU's (tijdens de livestream beweerde hij "meer dan 100.000") en een totale trainingstijd van 200 miljoen uur. Dit leidde ertoe dat sommigen dachten dat dit opnieuw een belangrijke zegen voor de GPU-industrie was en de impact van DeepSeek op de sector als "onzin" beschouwden. Sommigen geloven met name dat pure rekenkracht de toekomst van modeltraining zal zijn.

 

Sommige internetgebruikers vergeleken echter het verbruik van 2000 H800 GPU's gedurende twee maanden om DeepSeek V3 te produceren en berekenden dat het daadwerkelijke trainingsstroomverbruik van Grok3 263 keer zo hoog is als dat van V3. Het verschil tussen DeepSeek V3, dat 1402 punten scoorde, en Grok3 bedraagt ​​iets minder dan 100 punten. Na de publicatie van deze gegevens realiseerden velen zich al snel dat achter de titel van Grok3 als "sterkste ter wereld" een duidelijk marginaal nuteffect schuilgaat: de logica van grotere modellen die betere prestaties genereren, begint afnemende opbrengsten te vertonen.

640 (2)

Zelfs met "hoge score maar lage vaardigheid" beschikte Grok2 over enorme hoeveelheden hoogwaardige first-party data van het X (Twitter)-platform om het gebruik te ondersteunen. Bij de training van Grok3 stuitte xAI echter vanzelfsprekend op het "plafond" waar OpenAI momenteel mee kampt: het gebrek aan hoogwaardige trainingsdata legt al snel de marginale bruikbaarheid van de mogelijkheden van het model bloot.

 

De ontwikkelaars van Grok3 en Musk zijn waarschijnlijk de eersten die deze feiten grondig begrijpen en identificeren. Daarom heeft Musk op sociale media voortdurend vermeld dat de versie die gebruikers nu gebruiken "nog maar een bètaversie" is en dat "de volledige versie in de komende maanden zal worden uitgebracht". Musk heeft de rol van productmanager van Grok3 op zich genomen en raadt gebruikers aan om feedback te geven over verschillende problemen die ze tegenkomen in de reacties. Hij is misschien wel de meest gevolgde productmanager ter wereld.

 

Toch zorgden de prestaties van Grok3 binnen een dag ongetwijfeld voor onrust bij degenen die hoopten te vertrouwen op "enorme rekenkracht" om sterkere, grote modellen te trainen: volgens openbaar beschikbare Microsoft-informatie heeft OpenAI's GPT-4 een parametergrootte van 1,8 biljoen parameters, meer dan tien keer zo groot als die van GPT-3. Geruchten suggereren dat de parametergrootte van GPT-4.5 mogelijk nog groter is.

 

Naarmate de grootte van modelparameters toeneemt, schieten ook de trainingskosten omhoog. Met de komst van Grok3 moeten concurrenten zoals GPT-4.5 en anderen die geld willen blijven verbranden om betere modelprestaties te bereiken door middel van parametergrootte, rekening houden met de limiet die nu duidelijk in zicht is en hoe deze te overbruggen. Ilya Sutskever, voormalig hoofdwetenschapper bij OpenAI, verklaarde in december vorig jaar al: "De voortraining waar we bekend mee zijn, komt ten einde." Deze uitspraak is weer opgedoken in discussies, wat heeft geleid tot pogingen om de juiste weg te vinden voor het trainen van grote modellen.

640 (3)

Ilya's standpunt heeft de alarmbellen in de sector doen rinkelen. Hij voorzag terecht de dreigende uitputting van toegankelijke nieuwe data, wat zou leiden tot een situatie waarin de prestaties niet verder verbeterd kunnen worden door middel van dataverzameling. Hij vergeleek dit met de uitputting van fossiele brandstoffen. Hij gaf aan dat "net als olie, door mensen gegenereerde content op internet een beperkte hulpbron is." Volgens Sutskever zal de volgende generatie modellen, na de training, "echte autonomie" en redeneervermogen bezitten "vergelijkbaar met het menselijk brein".

 

In tegenstelling tot de huidige, vooraf getrainde modellen die voornamelijk vertrouwen op inhoudelijke matching (op basis van de eerder geleerde modelinhoud), zullen toekomstige AI-systemen in staat zijn om methodologieën te leren en te ontwikkelen om problemen op te lossen op een manier die vergelijkbaar is met het 'denken' van het menselijk brein. Een mens kan een fundamentele vaardigheid in een vakgebied bereiken met slechts elementaire vakliteratuur, terwijl een groot AI-model miljoenen datapunten nodig heeft om slechts de meest basale instapefficiëntie te bereiken. Zelfs wanneer de formulering enigszins wordt aangepast, worden deze fundamentele vragen mogelijk niet correct begrepen, wat aantoont dat het model niet echt intelligenter is geworden: de fundamentele, maar onoplosbare vragen die aan het begin van het artikel worden genoemd, vormen een duidelijk voorbeeld van dit fenomeen.

foto_20240614024031.jpg1

Conclusie

Als Grok3 er echter in slaagt om de sector duidelijk te maken dat "vooraf getrainde modellen bijna af zijn", dan zou dat, afgezien van brute kracht, grote gevolgen hebben voor de sector.

Misschien dat we, als de hype rondom Grok3 langzaam afneemt, meer gevallen zullen zien zoals het voorbeeld van Fei-Fei Li, waarbij "het afstemmen van hoogwaardige modellen op een specifieke dataset voor slechts $ 50" uiteindelijk de ware weg naar AGI zal vinden.

Vind ELV-kabeloplossing

Stuurkabels

Voor BMS-, BUS-, industriële en instrumentatiekabels.

Gestructureerd bekabelingssysteem

Netwerk & Data, Glasvezelkabel, Patchkabel, Modules, Frontplaat

Overzicht tentoonstellingen en evenementen 2024

16-18 april 2024 Midden-Oosten - Energie in Dubai

16-18 april 2024 Securika in Moskou

9 mei 2024 LANCERINGSEVENEMENT VOOR NIEUWE PRODUCTEN EN TECHNOLOGIEËN in Shanghai

22-25 oktober 2024 SECURITY CHINA in Beijing

19-20 november 2024 CONNECTED WORLD KSA


Geplaatst op: 19-02-2025