Het testen van de "Smartest In The World" GROK3

AIPU Waton Group (1)

Invoering

Denkt u dat GROK3 het "eindpunt" van vooraf opgeleide modellen zal zijn?

Elon Musk en het Xai -team lanceerden officieel de nieuwste versie van GROK, GROK3, tijdens een livestream. Voorafgaand aan dit evenement verhoogde een aanzienlijke hoeveelheid gerelateerde informatie, in combinatie met Musk's 24/7 promotionele hype, wereldwijde verwachtingen voor GROK3 tot ongekende niveaus. Slechts een week geleden verklaarde Musk vol vertrouwen tijdens een livestream tijdens het commentaar op Deepseek R1: "Xai staat op het punt een beter AI -model te lanceren." Uit de live gepresenteerde gegevens heeft GROK3 naar verluidt alle huidige reguliere modellen in benchmarks voor wiskunde, wetenschap en programmering overtroffen, waarbij Musk binnen drie jaar zelfs beweert dat GROK3 zal worden gebruikt voor computationele taken met betrekking tot SpaceX's Mars -missies. Dit zijn momenteel echter alleen de beweringen van Musk. Na de lancering heb ik de nieuwste bètaversie van GROK3 getest en stelde ik de klassieke trucvraag voor grote modellen: "die groter, 9.11 of 9,9 is?" Helaas, zonder kwalificaties of markeringen, kon de zogenaamde slimste GROK3 deze vraag nog steeds niet correct beantwoorden. GROK3 slaagde er niet in om de betekenis van de vraag nauwkeurig te identificeren.

 

Deze test trok snel veel aandacht van veel vrienden, en toevallig hebben verschillende vergelijkbare tests in het buitenland aangetoond dat GROK3 worstelt met basisfysica/wiskunde -vragen zoals "Welke bal valt eerst uit de leunende toren van Pisa?" Het is dus humoristisch bestempeld als "een genie dat niet bereid is om eenvoudige vragen te beantwoorden."

640

GROK3 is goed, maar het is niet beter dan R1 of O1-Pro.

GROK3 ondervond in de praktijk "mislukkingen" op veel algemene kennistests. Tijdens het XAI -lanceringsevenement demonstreerde Musk met behulp van GROK3 om de karakterklassen en effecten uit het spelpad van ballingschap 2 te analyseren, waarvan hij beweerde dat hij vaak zou spelen, maar de meeste antwoorden van GROK3 waren onjuist. Musk tijdens de livestream merkte deze voor de hand liggende kwestie niet op.

 

Deze fout leverde niet alleen verder bewijs voor overzeese netizens om Musk te bespotten voor "het vinden van een vervanger" in gaming, maar bracht ook grote zorgen op met betrekking tot de betrouwbaarheid van GROK3 in praktische toepassingen. Voor zo'n 'genie', ongeacht de werkelijke mogelijkheden ervan, blijft de betrouwbaarheid ervan in extreem complexe toepassingsscenario's, zoals Mars -verkenningstaken, in twijfel.

 

Momenteel wijzen veel testers die toegang hebben tot GROK3 weken geleden, en degenen die net de modelmogelijkheden gisteren hebben getest, allemaal, allemaal op een gemeenschappelijke conclusie: "GROK3 is goed, maar het is niet beter dan R1 of O1-Pro."

640 (1)

Een kritisch perspectief op "nvidia verstoren"

In de officieel gepresenteerde PPT tijdens de release bleek GROK3 "ver vooruit" te zijn in de chatbot-arena, maar deze slim gebruikte grafische technieken: de verticale as op het leaderboard vermelde alleen resultaten in het scorebereik van 1400-1300, waardoor het originele verschil in testresultaten in deze presentatie uitzonderlijk significant lijken.

640

In de werkelijke modelscoresresultaten is GROK3 slechts 1-2% voor op Deepseek R1 en GPT-4.0, wat overeenkomt met de ervaringen van veel gebruikers in praktische tests die 'geen merkbaar verschil' vonden. GROK3 overschrijdt zijn opvolgers slechts met 1%-2%.

640

Hoewel GROK3 hoger heeft gescoord dan alle momenteel publiek geteste modellen, nemen velen dit niet serieus: Xai is tenslotte eerder bekritiseerd voor "scoremanipulatie" in het GROK2 -tijdperk. Naarmate het leaderboard de stijl van de antwoordlengte bestraft, namen de scores sterk af, waardoor insiders uit de industrie vaak het fenomeen van 'hoog scorende maar lage vaardigheden' bekritiseren.

 

Of het nu gaat om leaderboard "manipulatie" of ontwerptrucs in illustraties, ze onthullen Xai en Musk's obsessie met het idee van "leiden van het peloton" in modelmogelijkheden. Musk betaalde een steile prijs voor deze marges: tijdens de lancering pochte hij over het gebruik van 200.000 H100 GPU's (claimde "meer dan 100.000" tijdens de livestream) en het bereiken van een totale trainingstijd van 200 miljoen uur. Dit bracht sommigen ertoe te geloven dat het nog een belangrijke zegen voor de GPU -industrie is en om de impact van Deepseek op de sector als 'dwaas' te beschouwen. Met name geloven sommigen dat pure rekenkracht de toekomst zal zijn van modeltraining.

 

Sommige netizens vergeleken echter de consumptie van 2000 H800 GPU's gedurende twee maanden om Deepseek V3 te produceren, waardoor het werkelijke trainingsverbruik van GROK3 263 keer dat van V3 is. De kloof tussen Deepseek V3, die 1402 punten scoorde, en GROK3 is iets minder dan 100 punten. Na de release van deze gegevens, realiseerden velen zich al snel dat achter de titel van GROK3 als de "Wereldsterkste" een duidelijk marginaal nutseffect ligt - de logica van grotere modellen die sterkere prestaties genereren, is begonnen afnemende rendementen te laten zien.

640 (2)

Zelfs met "hoge scoren maar lage vaardigheden" had GROK2 enorme hoeveelheden hoogwaardige first-party-gegevens van het X (Twitter) -platform om het gebruik te ondersteunen. In de training van GROK3 kwam Xai echter natuurlijk het "plafond" tegen waarmee Openai momenteel wordt geconfronteerd - het gebrek aan premium trainingsgegevens legt snel het marginale nut van de mogelijkheden van het model bloot.

 

De ontwikkelaars van GROK3 en Musk zijn waarschijnlijk de eerste die deze feiten diep begrijpen en identificeren, daarom heeft Musk op sociale media voortdurend gezegd dat de versie die gebruikers nu ervaren "nog steeds gewoon de bèta" is en dat "de volledige versie in de komende maanden zal worden uitgebracht." Musk heeft de rol van de productmanager van GROK3 op ​​zich genomen, wat suggereert dat gebruikers feedback geven over verschillende problemen die zich in de commentarensectie voordoen.

 

Maar binnen een dag heeft de prestaties van GROK3 ongetwijfeld alarmen opgehaald voor diegenen die hopen te vertrouwen op "massieve computationele spier" om sterkere grote modellen te trainen: op basis van openbaar beschikbare Microsoft-informatie heeft GPT-4 van OpenAI een parametergrootte van 1,8 biljoen parameters, meer dan tien keer die van GPT-3. Geruchten suggereren dat de parametergrootte van GPT-4.5 nog groter kan zijn.

 

Naarmate de modelparametergroottes stijgen, zijn de trainingskosten ook omhoogschoten. Met de aanwezigheid van GROK3 moeten kanshebbers zoals GPT-4.5 en anderen die willen blijven "geld branden" om betere modelprestaties te bereiken door parametergrootte, rekening houdend met het plafond dat nu duidelijk in zicht is en overwegen hoe het te overwinnen. Op dit moment had Ilya Sutskever, voormalig hoofdwetenschapper bij Openai, eerder in december verklaard: "De pre-training die we bekend zijn, zal een einde komen", die is opgedoken in discussies, wat zich ertoe aanzet om de ware weg te vinden voor het trainen van grote modellen.

640 (3)

Het gezichtspunt van Ilya heeft alarm in de industrie geklaard. Hij voorzag de aanstaande uitputting van toegankelijke nieuwe gegevens nauwkeurig, wat leidt tot een situatie waarin prestaties niet kunnen worden verbeterd door gegevensverwerving, waardoor het wordt vergeleken met de uitputting van fossiele brandstoffen. Hij gaf aan dat "zoals olie, door mensen gegenereerde inhoud op internet een beperkte bron is." In de voorspellingen van Sutskever zal de volgende generatie modellen, post-pre-training, "ware autonomie" en redeneermogelijkheden "beschikken" vergelijkbaar met het menselijk brein. "

 

In tegenstelling tot de vooraf opgeleide modellen van vandaag die voornamelijk afhankelijk zijn van het matchen van inhoud (op basis van de eerder geleerde modelinhoud), zullen toekomstige AI-systemen in staat zijn om methoden te leren en op te stellen om problemen op te lossen op een manier die lijkt op het "denken" van het menselijk brein. Een mens kan fundamentele vaardigheid bereiken in een onderwerp met alleen basisprofessionele literatuur, terwijl een AI-groot model miljoenen gegevenspunten vereist om de meest elementaire werkzaamheid op instapniveau te bereiken. Zelfs wanneer de formulering enigszins wordt gewijzigd, worden deze fundamentele vragen mogelijk niet correct begrepen, wat illustreert dat het model niet echt is verbeterd in intelligentie: de basis maar niet -oplosbare vragen die aan het begin van het artikel worden genoemd, vormen een duidelijk voorbeeld van dit fenomeen.

微信图片 _20240614024031.JPG1

Conclusie

Maar buiten brute kracht, als GROK3 inderdaad erin slaagt de industrie te onthullen dat "vooraf getrainde modellen hun einde naderen", zou het belangrijke implicaties voor het veld hebben.

Misschien na de razernij rondom GROK3 geleidelijk afgenomen, zullen we getuige zijn van meer gevallen zoals Fei-Fei Li's voorbeeld van "het afstemmen van high-performance modellen op een specifieke dataset voor slechts $ 50", uiteindelijk het ware pad naar Agi ontdekken.

Vind ELV -kabeloplossing

Controlekabels

Voor BMS, bus, industriële, instrumentatiekabel.

Gestructureerd bekabelingssysteem

Netwerk en gegevens, vezeloptische kabel, patchkoord, modules, voorplaat

2024 Exhibitions & Events Review

16 april-18e, 2024 Midden-oosten-energie in Dubai

16 april-18e, 2024 Securika in Moskou

MEI. 9, 2024 Nieuwe producten en technologieën Lanceringsevenement in Shanghai

22 oktober-25, 2024 Beveiliging China in Beijing

19-2020, 2024 Connected World KSA


Posttijd: februari-2025