הקדמה

מיינסטו אז גראָק3 וועט זיין דער "ענדפונקט" פון פאַר-טריינירטע מאָדעלן?

עלאָן מאַסק און די xAI מאַנשאַפֿט האָבן אָפיציעל אַרויסגעלאָזט די לעצטע ווערסיע פֿון גראָק, גראָק3, בעת אַ לייווסטרים. פֿאַר דעם געשעעניש, האָט אַ באַדייטנדיקע מאָס אינפֿאָרמאַציע, צוזאַמען מיט מאַסק'ס 24/7 פּראָמאָציאָנעלע כייפּ, געהויבן גלאָבאַלע ערוואַרטונגען פֿאַר גראָק3 צו אומגעזעענע לעוועלס. נאָר אַ וואָך צוריק, האָט מאַסק זיכער געזאָגט בעת אַ לייווסטרים בשעת ער האָט קאָמענטירט אויף DeepSeek R1, "xAI גייט באַלד אַרויסלאָזן אַ בעסערן AI מאָדעל." פֿון די דאַטן וואָס זענען פּרעזענטירט געוואָרן לייוו, האָט גראָק3 באַריכטעט איבערגעשטיגן אַלע איצטיקע הויפּטשטראָם מאָדעלן אין בענטשמאַרקס פֿאַר מאַטעמאַטיק, וויסנשאַפֿט און פּראָגראַמירן, מיט מאַסק וואָס האָט אַפֿילו באַהויפּטעט אַז גראָק3 וועט ווערן גענוצט פֿאַר קאָמפּיוטיישאַנאַלע אויפֿגאַבן פֿאַרבונדן מיט SpaceX'ס מאַרס מיסיעס, פֿאָרויסזאָגנדיג "דורכבראָכן אויף דעם נאָבעל פרייז לעוועל אין דריי יאָר." אָבער, דאָס זענען איצט נאָר מאַסק'ס באַהויפּטונגען. נאָך דעם אַרויסלאָזן, האָב איך געטעסט די לעצטע ביתא ווערסיע פֿון גראָק3 און געשטעלט די קלאַסישע טריק פֿראַגע פֿאַר גרויסע מאָדעלן: "וואָס איז גרעסער, 9.11 אָדער 9.9?" ליידער, אָן קיין קוואַליפֿיקאַציעס אָדער מאַרקירונגען, האָט דער אַזוי גערופֿענער קלוגסטער גראָק3 נאָך אַלץ נישט געקענט ענטפֿערן די פֿראַגע ריכטיק. גראָק3 האָט נישט גענוי געקענט ידענטיפיצירן די באַדייטונג פון דער פראגע.

די טעסט האט שנעל געצויגן באדייטנדע אויפמערקזאמקייט פון פילע פריינט, און צופעליג, פארשידענע ענלעכע טעסטן אין אויסלאנד האבן געוויזן אז גראָק3 האט שוועריגקייטן מיט גרונטלעכע פיזיק/מאטעמאטיק פראגעס ווי "וועלכע באל פאלט ערשטער פון דעם בייגנדיקן טורעם פון פיזא?" אזוי, איז עס הומאריסטיש באצייכנט געווארן אלס "א געניוס וואס וויל נישט ענטפערן אויף פשוטע פראגעס."

גראָק3 איז גוט, אָבער עס איז נישט בעסער ווי R1 אָדער o1-Pro.

גראָק3 האָט דערפֿאַרן "דורכפֿאַלן" אויף פֿילע געוויינטלעכע וויסן טעסטן אין פּראַקטיק. בעת דעם xAI לאָנטשינג געשעעניש, האָט מאַסק דעמאָנסטרירט ווי ער ניצט גראָק3 צו אַנאַליזירן די כאַראַקטער קלאַסן און עפֿעקטן פֿון דעם שפּיל Path of Exile 2, וואָס ער האָט באַהויפּטעט צו שפּילן אָפֿט, אָבער רובֿ פֿון די ענטפֿערס וואָס גראָק3 האָט געגעבן זענען געווען פֿאַלש. מאַסק בעת דעם לייווסטרים האָט נישט באַמערקט דעם קלאָרן פּראָבלעם.

די טעות האט נישט נאר געגעבן ווייטערדיגע באווייזן פאר אויסלענדישע אינטערנעט באנוצער צו פארשעמען מאסק פאר "געפינען א סובסטיטוט" אין גיימינג, נאר אויך אויפגעוועקט באדייטנדע זארגן וועגן גראָק3'ס פארלעסלעכקייט אין פראקטישע אנווענדונגען. פאר אזא "געניאַל", אומאפהענגיק פון זיינע פאקטישע מעגלעכקייטן, בלייבט זיין פארלעסלעכקייט אין גאר קאמפליצירטע אנווענדונג סצענארן, ווי למשל מארס אויספארשונג אויפגאבן, אין צווייפל.

איצט, פילע טעסטערס וואָס האָבן באַקומען צוטריט צו Grok3 וואָכן צוריק, און די וואָס האָבן נאָר געטעסט די מאָדעל קייפּאַבילאַטיז פֿאַר אַ פּאָר שעה נעכטן, ווײַזן אַלע אויף אַ געמיינזאַמע מסקנא: "Grok3 איז גוט, אָבער עס איז נישט בעסער ווי R1 אָדער o1-Pro."

א קריטישע פּערספּעקטיוו אויף "דיסראַפּטינג נווידיאַ"

אין דער אפיציעל פאָרגעשטעלטער פּפּט בעת דער אויסגאַבע, איז געוויזן געוואָרן אַז גראָק3 איז "ווייט פאָרויס" אין דער טשאַטבאָט אַרענע, אָבער דאָס האָט קלוג גענוצט גראַפֿישע טעכניקן: די ווערטיקאַלע אַקס אויף דער לידערבאָרד האָט נאָר אויסגערעכנט רעזולטאַטן אין דער 1400-1300 סקאָר קייט, מאַכנדיג דעם אָריגינעלן 1% אונטערשייד אין טעסט רעזולטאַטן אויסזען אויסערגעוויינלעך באַדייטנדיק אין דער פּרעזענטאַציע.

אין די פאַקטישע מאָדעל סקאָרינג רעזולטאַטן, איז Grok3 בלויז 1-2% פאָרויס פון DeepSeek R1 און GPT-4.0, וואָס קאָרעספּאָנדירט צו פילע באַניצערס 'ערפאַרונגען אין פּראַקטישע טעסץ וואָס האָבן געפֿונען "קיין באַמערקבאַר חילוק." Grok3 איז בלויז 1%-2% העכער זיינע נאכפאלגער.

כאָטש Grok3 האָט באַקומען העכערע סקאָרס ווי אַלע איצטיקע עפנטלעך געטעסטע מאָדעלן, נעמען פילע דאָס נישט ערנסט: נאָך אַלץ, xAI איז פריער קריטיקירט געוואָרן פֿאַר "סקאָר מאַניפּולאַציע" אין דער Grok2 תקופה. ווי די לידערבאָרד האָט באַשטראָפט דעם ענטפֿער לענג סטיל, זענען די סקאָרס שטאַרק געפֿאַלן, וואָס האָט געפֿירט אינדוסטריע אינסיידערס צו אָפֿט קריטיקירן דעם פֿענאָמען פֿון "הויך סקאָרינג אָבער נידעריקע פֿעיִקייט".

צי דורך לידערבאָרד "מאַניפּולאַציע" צי דורך דיזיין טריקס אין אילוסטראַציעס, זיי אַנטפּלעקן xAI און מאַסק'ס אָבסעסיע מיט דער געדאַנק פון "פירן די פּאַק" אין מאָדעל קייפּאַבילאַטיז. מאַסק האָט באַצאָלט אַ גרויסן פּרייַז פֿאַר די מאַרדזשינס: בעת די לאָנטשינג, האָט ער זיך גערימט מיט ניצן 200,000 H100 GPUs (באַהויפּטנדיק "איבער 100,000" בעת די לייווסטרים) און דערגרייכן אַ גאַנץ טריינינג צייט פון 200 מיליאָן שעה. דאָס האָט געפֿירט עטלעכע צו גלויבן אַז עס רעפּרעזענטירט נאָך אַ באַדייטנדיק ברכה פֿאַר די GPU אינדוסטריע און צו באַטראַכטן DeepSeek'ס השפּעה אויף דעם סעקטאָר ווי "נאַריש". באַמערקעוודיק, עטלעכע גלויבן אַז ריין קאַמפּיוטיישאַנאַל מאַכט וועט זיין די צוקונפֿט פון מאָדעל טריינינג.

אבער, עטלעכע נעץ באַניצער האָבן פאַרגליכן דעם קאַנסאַמשאַן פון 2000 H800 GPUs איבער צוויי חדשים צו פּראָדוצירן DeepSeek V3, און אויסגערעכנט אַז Grok3'ס פאַקטישע טראַינינג מאַכט קאַנסאַמשאַן איז 263 מאָל אַז פון V3. דער חילוק צווישן DeepSeek V3, וואָס האָט באַקומען 1402 פונקטן, און Grok3 איז נאָר אונטער 100 פונקטן. נאָך דער ארויסגעבונג פון די דאַטן, האָבן פילע שנעל איינגעזען אַז הינטער Grok3'ס טיטל ווי דער "וועלט'ס שטאַרקסטער" ליגט אַ קלאָרער מאַרדזשינאַלער נוצלעכקייט ווירקונג - די לאָגיק פון גרעסערע מאָדעלן וואָס דזשענערירן שטאַרקערע פאָרשטעלונג האָט אָנגעהויבן צו ווייַזן פאַרקלענערנדיקע פּראָפיטן.

אפילו מיט "הויכע סקאָרינג אָבער נידעריקע פעאיקייט," האט גראָק2 געהאט ריזיקע מאָסן פון הויך-קוואַליטעט ערשט-פּאַרטיי דאַטן פון דער X (טוויטער) פּלאַטפאָרמע צו שטיצן די נוצן. אָבער, אין דער טריינינג פון גראָק3, האט xAI נאַטירלעך באַגעגנט דעם "סופיט" וואָס OpenAI שטייט איצט פֿאַר - דער מאַנגל פון פּרעמיע טריינינג דאַטן אַנטפּלעקט שנעל די מאַרדזשינאַלע נוצלעכקייט פון די מאָדעל'ס מעגלעכקייטן.

די דעוועלאָפּערס פון גראָק3 און מאַסק זענען מסתּמא די ערשטע צו פֿאַרשטיין און אידענטיפֿיצירן די פֿאַקטן טיף, וואָס איז פאַרוואָס מאַסק האָט קעסיידער דערמאָנט אויף סאָציאַלע מידיאַ אַז די ווערסיע וואָס באַניצער דערפֿאַרן איצט איז "נאָך נאָר די ביתא" און אַז "די פֿולע ווערסיע וועט אַרויסקומען אין די קומענדיקע חדשים." מאַסק האָט איבערגענומען די ראָלע פֿון גראָק3'ס פּראָדוקט מענעדזשער, און פֿאָרשלאָגט אַז באַניצער זאָלן געבן פֿידבעק אויף פֿאַרשידענע פּראָבלעמען וואָס זיי טרעפֿן אין די קאָמענטאַרן סעקציע. ער איז אפשר דער מערסט געפֿאָלגטער פּראָדוקט מענעדזשער אויף דער ערד.

אבער, אינערהאלב איין טאג, האט גראָק3'ס פאָרשטעלונג אומצווייפלעך אויפגעוועקט שרעק פאר די וואָס האפן צו פאַרלאָזן זיך אויף "מאַסיווע קאַמפּיוטיישאַנאַל מוסקל" צו טרענירן שטאַרקערע גרויסע מאָדעלן: באַזירט אויף עפנטלעך בנימצא מייקראָסאָפֿט אינפֿאָרמאַציע, האט OpenAI'ס GPT-4 אַ פּאַראַמעטער גרייס פון 1.8 טריליאָן פּאַראַמעטערס, איבער צען מאָל אַזוי פיל ווי GPT-3. קלאַנגען פֿאָרשלאָגן אַז די פּאַראַמעטער גרייס פון GPT-4.5 קען זיין נאָך גרעסער.

ווי די מאָדעל פּאַראַמעטער גרייסן שטייגן הויך, די טריינינג קאָסטן שטייגן אויך הויך. מיט Grok3'ס בייַזייַן, קאָנקורענטן ווי GPT-4.5 און אַנדערע וואָס ווילן פאָרזעצן "פאַרברענען געלט" צו דערגרייכן בעסערע מאָדעל פאָרשטעלונג דורך פּאַראַמעטער גרייס מוזן באַטראַכטן די סופיט וואָס איז איצט קלאָר אין זיכט און באַטראַכטן ווי צו באַקומען עס. אין דעם מאָמענט, איליאַ סוצקעווער, פריערדיגער הויפּט וויסנשאַפֿטלער ביי OpenAI, האט פריער געזאגט לעצטן דעצעמבער, "די פאַר-טריינינג מיט וואָס מיר זענען באַקאַנט וועט קומען צו אַן ענדע," וואָס איז ווידער אויפגעשווימען אין דיסקוסיעס, פּראַמפּטינג השתדלות צו געפֿינען דעם ריכטיקן וועג פֿאַר טריינינג גרויסע מאָדעלס.

איליאַס שטאַנדפּונקט האָט געמאַכט אַ שרעק אין דער אינדוסטריע. ער האָט גענוי פֿאָרויסגעזען די באַלדיקע אויסשעפּונג פֿון צוגענגלעכע נײַע דאַטן, וואָס וועט פֿירן צו אַ סיטואַציע וואו די פאָרשטעלונג קען נישט ווײַטער פֿאַרבעסערט ווערן דורך דאַטן-אַקוויזיציע, פֿאַרגלײַכנדיק עס מיטן אויסשעפּונג פֿון פֿאָסילע ברענשטאָפֿן. ער האָט אָנגעוויזן אַז "ווי נאַפֿט, איז מענטש-גענערירטער אינהאַלט אויף דער אינטערנעץ אַ באַגרענעצטער רעסורס." אין סוצקעווערס פֿאָרויסזאָגונגען, וועט די קומענדיקע דור מאָדעלן, נאָך פֿאָר-טראַינינג, האָבן "אמתע אויטאָנאָמיע" און לאָגיק-פֿעיִקייטן "ענלעך צום מענטשלעכן מוח."

אנדערש ווי היינטיגע פאר-טריינירטע מאדעלן וואס פארלאזן זיך בעיקר אויף אינהאלט-צוגלייכונג (באזירט אויף דעם פריער געלערנטן מאדעל אינהאלט), וועלן צוקונפטיגע קינסטלעכע אינטעליגענץ סיסטעמען קענען לערנען און אויפשטעלן מעטאדאלאגיעס צו לייזן פראבלעמען אויף א וועג ענליך צום "טראכטן" פון דעם מענטשלעכן מוח. א מענטש קען דערגרייכן גרונטלעכע בקיאות אין א טעמע מיט נאר גרונטלעכע פראפעסיאנעלע ליטעראטור, בשעת א גרויסער קינסטלעכע אינטעליגענץ מאדעל פארלאנגט מיליאנען דאטן פונקטן צו דערגרייכן נאר די מערסט גרונטלעכע איינטריט-לעוועל עפעקטיווקייט. אפילו ווען די ווערטער ווערן אביסל געטוישט, קען מען נישט ריכטיק פארשטיין די גרונטלעכע פראגעס, וואס ווייזט אז דער מאדעל האט זיך נישט באמת פארבעסערט אין אינטעליגענץ: די גרונטלעכע אבער נישט-לייזבארע פראגעס דערמאנט אין אנהייב פונעם ארטיקל רעפרעזענטירן א קלאר ביישפיל פון דעם פענאמען.

מסקנא

אבער, ווייטער פון ברוטאלע קראפט, אויב גראָק3 טאקע געלונגען צו אנטפלעקן פאר דער אינדוסטריע אז "פאר-טריינירטע מאדעלן נענטערן זיך צו זייער סוף," וואלט דאס געהאט באדייטנדע אימפליקאציעס פארן פעלד.

אפשר נאכדעם וואס די פרענזי ארום גראָק3 וועט ביסלעכווייַז פֿאַרמינערט ווערן, וועלן מיר זען מער פֿאַלן ווי פֿיי-פֿיי לי'ס בייַשפּיל פֿון "טונינג הויך-פּערפאָרמאַנס מאָדעלן אויף אַ ספּעציפֿישן דאַטאַסעט פֿאַר בלויז $50," און בסוף אַנטדעקן דעם ריכטיקן וועג צו AGI.