AI alanında yüz model savaşı: Teknolojik yenilikten mühendislik pratiğine
Geçen ay, AI endüstrisinde şiddetli bir model yarışması patlak verdi.
Bir taraf, belirli bir teknoloji devinin sunduğu açık kaynak büyük dil modelidir ve açık özellikleri nedeniyle geliştiriciler tarafından büyük ilgi görmektedir. Japonya'daki bir şirket, bu modelin makalelerini ve kaynak kodunu inceledikten sonra, Japonca bir diyalog AI sistemi geliştirmiştir ve bu, Japonya'nın AI gelişimindeki darboğazı çözmüştür.
Diğer taraf, "Şahin" adını taşıyan büyük modeldir. Bu yılın Mayıs ayında Falcon-40B tanıtıldı ve açık kaynak LLM sıralamasında rakiplerini geride bırakarak birinci oldu.
Bu sıralama, LLM yeteneklerini değerlendirmek için bir standart seti sağlayan açık kaynaklı bir model topluluğu tarafından hazırlanmıştır. Sıralama esasen bu iki modelin sırayla kapladığı yerlerden oluşmaktadır.
Eylül ayının başında, "Şahin" 180B versiyonunu piyasaya sürdü ve tekrar daha yüksek bir sıralama elde etti. İlginç bir şekilde, "Şahin"'in geliştiricileri bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nde bulunan bir araştırma kuruluşudur. BAE yetkilileri, bu yarışmaya katılmalarının mevcut durumu kırmak için olduğunu belirtti.
Günümüzde, AI alanı birçok oyuncunun yarıştığı bir aşamaya girmiştir. Belirli bir mali güce sahip olan ülkeler ve şirketler, yerel diyalog AI sistemleri geliştirmeyi planlamaktadır. Körfez bölgesinde, sadece bir oyuncu değil, birden fazla oyuncu strateji geliştirmektedir. Ağustos ayında, Suudi Arabistan yerel üniversiteler için binlerce yüksek kaliteli AI çipi satın almış, bunları büyük dil modellerini eğitmek için kullanmıştır.
Ünlü bir yatırımcı sosyal medyada şöyle düşündü: "Geçmişte internetin iş modeli yeniliklerini küçümsemiştim, herhangi bir engel yoktu. Ancak sert teknoloji büyük model girişimi hala yüzlerce model savaşına dönüşmüş..."
Sözde yüksek zorlukta sert teknoloji, nasıl oldu da ülkelerin ardı ardına yerleşim yaptığı bir pist haline dönüştü?
Transformer algoritması AI devrimini tetikliyor
Amerikan girişimciler, Çin teknoloji devleri veya Orta Doğu petrol baronları olsun, büyük model araştırmalarına katılabilmelerinin nedeni o ünlü makale: "Attention Is All You Need".
2017'de, 8 Google bilim insanı bu makalede Transformer algoritmasını tüm dünyaya açıkladı. Bu makale, AI alanında en çok atıf yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetiklemiştir.
Mevcut çeşitli büyük modeller, hangi milletten olursa olsun, dünya çapında dikkat çeken GPT serisi de dahil olmak üzere, Transformer temeli üzerine inşa edilmiştir.
Daha önce, "makinelere okuma öğretmek" kabul edilen akademik bir zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da dikkate alarak anlar. Erken sinir ağlarının girişi birbirinden bağımsızdı, bu nedenle uzun metinleri veya hatta tam makaleleri anlamak zordu ve bu yüzden bazı komik çeviri hataları sıklıkla ortaya çıkıyordu.
2014 yılına kadar, bir bilgisayar bilimcisi döngüsel sinir ağları (RNN) kullanarak doğal dil işleme gerçekleştirdi ve bir çeviri sisteminin performansını büyük ölçüde artırdı. RNN, her nöronun hem mevcut girdiyi hem de bir önceki anın girdisini almasını sağlayan "döngü tasarımı"nı önerdi ve böylece "bağlamı birleştirme" yeteneğine sahip oldu.
RNN'nin ortaya çıkışı akademik dünyada araştırma heyecanını ateşledi, Transformer makalesinin yazarlarından biri de bir süre buna kapıldı. Ancak geliştiriciler çok geçmeden RNN'nin ciddi bir eksikliği olduğunu fark ettiler: bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözse de, çalışma verimliliği yüksek değil ve büyük miktarda parametreyi işlemekte zorlanıyor.
RNN'nin karmaşık tasarımı, araştırmacıları kısa sürede sıkmaya başladı. 2015 yılından itibaren, bir grup fikir birliği içinde olan bilim insanı, RNN'nin alternatiflerini geliştirmeye başladı ve nihayetinde elde edilen sonuç Transformer oldu.
RNN'ye kıyasla, Transformer'ın iki büyük yeniliği var: birincisi, döngüsel tasarım yerine konum kodlaması kullanarak paralel hesaplamayı gerçekleştiriyor, bu da eğitim verimliliğini büyük ölçüde artırarak AI'nın büyük model çağını girmesini sağlıyor; ikincisi, bağlamı anlama yeteneğini daha da güçlendiriyor.
Transformer birçok sorunu bir anda çözdü ve giderek doğal dil işleme alanında ana akım bir çözüm haline geldi. Hatta RNN'nin kurucuları bile Transformer cephesine geçti. Denilebilir ki, Transformer günümüzdeki tüm büyük modellerin temelidir ve büyük modelleri teorik araştırmadan mühendislik sorununa dönüştürmüştür.
2019 yılında, bir AI şirketi Transformer tabanlı GPT-2'yi geliştirerek akademik dünyayı bir süre şaşırttı. Buna yanıt olarak, bir teknoloji devi hızla daha güçlü bir AI sistemi sundu. GPT-2 ile karşılaştırıldığında, bu sistemde herhangi bir algoritma yeniliği yoktu, sadece eğitim parametreleri ve hesaplama gücünde büyük bir artış sağlandı. Transformer makalesinin yazarları bu tür "şiddetli yığmayı" büyük bir şaşkınlıkla karşıladı ve düşüncelerini kaydetmek için bir not yazdılar.
Transformer'ın ortaya çıkması, akademik alandaki temel algoritma yeniliklerinin hızını yavaşlattı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarları haline geliyor. Belirli bir teknik yeterliliğe sahip olan her şirket, büyük modeller geliştirebilir.
Bu nedenle, tanınmış bir AI uzmanı konuşmasında şunları söyledi: "AI, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve üretken AI dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi genel teknolojilerdir."
Bir AI şirketi hala büyük dil modellerinin yön belirleyicisi olsa da, sektördeki analizler, rekabet gücünün esasen mühendislik çözümlerinden kaynaklandığını düşünüyor. Eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir. Bir analist, yakında diğer büyük teknoloji şirketlerinin de eşit performansa sahip büyük modeller geliştirebileceğini öngörüyor.
Büyük Model Yarışmasının Karşılaştığı Zorluklar
Şu anda, "Bai Mo Savaşı" artık bir retorik değil, nesnel bir gerçekliktir.
İlgili raporlar, bu yıl Temmuz ayı itibarıyla Çin'de büyük model sayısının 130'a ulaştığını ve Amerika'nın 114 modelini geçtiğini göstermektedir. Çin ve Amerika dışında, bazı daha zengin ülkeler de "bir ülke bir model" hedefine ulaşmış durumda: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümeti tarafından desteklenen Bhashini ve Güney Koreli internet şirketi tarafından geliştirilen HyperClova X gibi modeller de bulunmaktadır.
Bu manzara, yıllar önceki internet balonu dönemine benziyor, sermaye birbiri ardına akın ediyor.
Daha önce belirtildiği gibi, Transformer büyük modelleri mühendislik sorununa dönüştürüyor; yeter ki yeterli insan kaynağı, finansman ve donanım bulunsun, gerisini parametre ayarlamalarına bırakabilirsiniz. Ancak giriş engelinin düşmesi, herkesin AI çağının devlerinden biri olabileceği anlamına gelmiyor.
Makalede bahsedilen "model savaşı" tipik bir örnektir: Bir model sıralamada önde olsa da, belirli bir teknoloji devi üzerinde ne kadar büyük bir etki yarattığını söylemek zordur.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak olarak sunuyorlar, hem teknolojik kazançları toplumla paylaşmak için hem de kamu zekasından yararlanmak için. Farklı sektörlerin belirli bir açık kaynak modelini sürekli kullanıp geliştirmesiyle, ana şirket bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif geliştirici topluluğu temel rekabet avantajıdır.
Bir sosyal medya devi, 2015 yılında AI laboratuvarı kurduğunda, açık kaynak stratejisini belirlemişti; kurucusu "topluluk ilişkilerini sürdürme" konusunda derin bilgiye sahip. Bu yıl Ekim ayında, şirket ayrıca "AI Yaratıcı Teşvik" etkinliğini başlattı: açık kaynak modelini kullanarak eğitim, çevre gibi sosyal sorunları çözen geliştiricilerin 50.000 dolar hibe alma fırsatı var.
Bugün, şirketin açık kaynak model serisi sektör standardı haline gelmiştir. Ekim ayının başı itibarıyla, bir açık kaynak model sıralamasında ilk 10'da yer alan 8 model bu seri temel alınarak oluşturulmuştur. Sadece bu platformda, açık kaynak lisansını kullanan model sayısı 1500'ü aşmaktadır.
Elbette, model performansını artırmak da mümkündür, ancak şu anda piyasadaki çoğu model, en üst düzey AI sistemleri ile hala belirgin bir fark arz etmektedir.
Örneğin, kısa süre önce bir AI sistemi AgentBench testinde 4.41 puan alarak birinci oldu. AgentBench, birçok tanınmış üniversitenin ortaklaşa geliştirdiği bir sistemdir ve büyük modellerin çok boyutlu açık ortamlardaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 görevden oluşmaktadır.
Test sonuçları, ikinci sıradaki kişinin yalnızca 2.77 puan aldığını, aradaki farkın belirgin olduğunu gösteriyor. O büyük açık kaynaklı modeller ise test skorlarının çoğunlukla 1 puan civarında olduğunu, şampiyonun dörtte birine bile ulaşamadığını ortaya koyuyor.
Bilmek gerekir ki, en güçlü AI sistemi bu yıl Mart ayında piyasaya sürüldü, bu da küresel rakiplerin yarım yıldan fazla bir süre sonra gelmesinin bir sonucudur. Bu farkın nedeni, şirketin yüksek kalitede araştırma ekibi ve uzun süreli birikimi ile sürekli olarak öncü konumunu korumasıdır.
Başka bir deyişle, büyük modellerin temel avantajı parametre sayısı değil, ekosistem inşasıdır ( açık kaynak yolu ) veya saf çıkarım yeteneği ( kapalı kaynak yolu ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, çeşitli modellerin performansı benzer mimariler ve veri setleri kullanıldığı için benzeşebilir.
Bir diğer daha gerçekçi sorun: Az sayıda örnek dışında, görünüşe göre henüz hiçbir büyük model kâr elde edemedi.
Büyük Modellerin Karşılaştığı Ekonomik Baskılar
Bu yılın Ağustos ayında, "Bir AI şirketinin 2024 yılı sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin özünü neredeyse bir cümleyle özetlemek mümkün: Şirketin harcama hızı çok hızlı.
Metinde, belirli bir diyalog yapay zeka sistemi geliştirdikten sonra, şirketin zararlarının hızla büyüdüğü ve yalnızca 2022'de yaklaşık 5,4 milyar dolar kaybettiği, bunun sadece yatırımcıların desteğiyle sürdürülebileceği belirtiliyor.
Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu yansıtmaktadır: maliyetler ile gelirler arasında ciddi bir dengesizlik var.
Yüksek maliyetler, şu anda AI'ye gerçekten kâr eden yalnızca birkaç çip üreticisine bağımlı olmasına neden oluyor.
Danışmanlık şirketine göre, bir çip devinin bu yılın ikinci çeyreğinde 300.000'den fazla yüksek kaliteli AI çipi sattığı tahmin ediliyor. Bu, AI'yi eğitme konusunda son derece verimli bir çip ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları bu çipi almak için yarışıyor. Satılan çipler üst üste konulursa, ağırlığı 4,5 adet Boeing 747'ye eşit.
Bu çip şirketinin performansı hızla arttı, yıllık gelir %854 oranında büyüyerek Wall Street'i şok etti. Ayrıca, bu çip ikinci el piyasada 40.000-50.000 dolara satılmakta, oysa maliyeti yalnızca yaklaşık 3.000 dolar.
Yüksek hesaplama gücü maliyetleri, bir bakıma sektörün gelişimini engellemektedir. Tanınmış bir yatırım kuruluşu, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatına yaklaşık 200 milyar dolar yatırmayı planladığını tahmin etmiştir; buna karşılık, büyük model her yıl en fazla 75 milyar dolar gelir üretebilir, arada en az 125 milyar dolarlık bir boşluk bulunmaktadır.
Ayrıca, birkaç istisna dışında, çoğu yazılım şirketi büyük yatırımlar yaptıktan sonra hâlâ net bir kâr modeli bulamadı. Sektör lideri şirketler bile zorluklarla karşı karşıya.
Bir teknoloji devi ile AI şirketinin iş birliğiyle geliştirilen kod üretme aracı, her ne kadar aylık 10 dolar ücret alsa da, tesis maliyetleri nedeniyle her ay 20 dolar zarar ediyor. Ağır kullanıcılar, şirketin her ay 80 dolar zarar etmesine neden olabiliyor. Buna dayanarak, aylık 30 dolara sunulan bir AI asistan hizmetinin daha fazla zarar edebileceği tahmin ediliyor.
Aynı şekilde, yeni AI araçları çıkaran bir yazılım devi de kullanıcıların aşırı kullanımını önlemek için hızlı bir şekilde bir puan sistemi başlattı ve şirketin zarar etmesini engelledi. Kullanıcılar aylık tahsis edilen puanı aştığında, şirket hizmet hızını düşürecektir.
Bu iki şirketin zaten net iş senaryoları ve çok sayıda ücretli kullanıcısı var. Çoğu parametre ölçeği büyük modelin en önemli uygulama senaryosu hala diyalog.
Inkâr edilemez ki, eğer o AI şirketi ve onun diyalog sistemi çıkmasaydı, bu AI devrimi meydana gelmeyebilirdi. Ancak şu anda, büyük modellerin eğitilmesiyle yaratılan değer henüz tartışmalıdır.
Ayrıca, homojen rekabetin artması ve açık kaynak modellerin sayısının artmasıyla, yalnızca büyük model hizmeti sunan şirketler daha büyük bir baskı ile karşılaşabilir.
Bir akıllı telefonun başarısının nedeni gelişmiş işlemcisi değil, çeşitli popüler uygulamaları çalıştırabilme yeteneğiyse, büyük modellerin değeri de nihayetinde belirli uygulama senaryolarında kendini göstermelidir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
12 Likes
Reward
12
8
Repost
Share
Comment
0/400
P2ENotWorking
· 08-13 04:24
Üreticinin yününü sert bir şekilde soymak
View OriginalReply0
Whale_Whisperer
· 08-12 11:34
Kuruluşlar hepsi yarışıyor, ben sadece su üzerinde kayıyorum.
View OriginalReply0
ChainBrain
· 08-11 20:47
Neredeyse berbat oldu.
View OriginalReply0
GasFeeVictim
· 08-11 20:46
Yine bir kamyon GPU yaktık.
View OriginalReply0
blocksnark
· 08-11 20:45
Sermaye koyunlarını acımasızca yolmak
View OriginalReply0
Rekt_Recovery
· 08-11 20:45
doğruyu söylemek gerekirse bu şahin durumu bana büyük boğa piyasası travması yaşatıyor... sanki başka bir kaldıraç tuzağı olmaya hazır gibi
View OriginalReply0
GasFeeLady
· 08-11 20:41
tıpkı eth'deki gas ücretleri gibi... bu AI modelleri sürekli pump ve dump yapıyor lmao
View OriginalReply0
HashBrownies
· 08-11 20:25
Model yarışmacıları kimlerin parametreleri büyük diye yarışıyor.
Yapay Zeka Büyük Model Yarışması: Akademik İnovasyondan Mühendislik Uygulamalarına Kadar Yüzlerce Fikirin Mücadelesi
AI alanında yüz model savaşı: Teknolojik yenilikten mühendislik pratiğine
Geçen ay, AI endüstrisinde şiddetli bir model yarışması patlak verdi.
Bir taraf, belirli bir teknoloji devinin sunduğu açık kaynak büyük dil modelidir ve açık özellikleri nedeniyle geliştiriciler tarafından büyük ilgi görmektedir. Japonya'daki bir şirket, bu modelin makalelerini ve kaynak kodunu inceledikten sonra, Japonca bir diyalog AI sistemi geliştirmiştir ve bu, Japonya'nın AI gelişimindeki darboğazı çözmüştür.
Diğer taraf, "Şahin" adını taşıyan büyük modeldir. Bu yılın Mayıs ayında Falcon-40B tanıtıldı ve açık kaynak LLM sıralamasında rakiplerini geride bırakarak birinci oldu.
Bu sıralama, LLM yeteneklerini değerlendirmek için bir standart seti sağlayan açık kaynaklı bir model topluluğu tarafından hazırlanmıştır. Sıralama esasen bu iki modelin sırayla kapladığı yerlerden oluşmaktadır.
Eylül ayının başında, "Şahin" 180B versiyonunu piyasaya sürdü ve tekrar daha yüksek bir sıralama elde etti. İlginç bir şekilde, "Şahin"'in geliştiricileri bir teknoloji şirketi değil, Birleşik Arap Emirlikleri'nde bulunan bir araştırma kuruluşudur. BAE yetkilileri, bu yarışmaya katılmalarının mevcut durumu kırmak için olduğunu belirtti.
Günümüzde, AI alanı birçok oyuncunun yarıştığı bir aşamaya girmiştir. Belirli bir mali güce sahip olan ülkeler ve şirketler, yerel diyalog AI sistemleri geliştirmeyi planlamaktadır. Körfez bölgesinde, sadece bir oyuncu değil, birden fazla oyuncu strateji geliştirmektedir. Ağustos ayında, Suudi Arabistan yerel üniversiteler için binlerce yüksek kaliteli AI çipi satın almış, bunları büyük dil modellerini eğitmek için kullanmıştır.
Ünlü bir yatırımcı sosyal medyada şöyle düşündü: "Geçmişte internetin iş modeli yeniliklerini küçümsemiştim, herhangi bir engel yoktu. Ancak sert teknoloji büyük model girişimi hala yüzlerce model savaşına dönüşmüş..."
Sözde yüksek zorlukta sert teknoloji, nasıl oldu da ülkelerin ardı ardına yerleşim yaptığı bir pist haline dönüştü?
Transformer algoritması AI devrimini tetikliyor
Amerikan girişimciler, Çin teknoloji devleri veya Orta Doğu petrol baronları olsun, büyük model araştırmalarına katılabilmelerinin nedeni o ünlü makale: "Attention Is All You Need".
2017'de, 8 Google bilim insanı bu makalede Transformer algoritmasını tüm dünyaya açıkladı. Bu makale, AI alanında en çok atıf yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetiklemiştir.
Mevcut çeşitli büyük modeller, hangi milletten olursa olsun, dünya çapında dikkat çeken GPT serisi de dahil olmak üzere, Transformer temeli üzerine inşa edilmiştir.
Daha önce, "makinelere okuma öğretmek" kabul edilen akademik bir zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da dikkate alarak anlar. Erken sinir ağlarının girişi birbirinden bağımsızdı, bu nedenle uzun metinleri veya hatta tam makaleleri anlamak zordu ve bu yüzden bazı komik çeviri hataları sıklıkla ortaya çıkıyordu.
2014 yılına kadar, bir bilgisayar bilimcisi döngüsel sinir ağları (RNN) kullanarak doğal dil işleme gerçekleştirdi ve bir çeviri sisteminin performansını büyük ölçüde artırdı. RNN, her nöronun hem mevcut girdiyi hem de bir önceki anın girdisini almasını sağlayan "döngü tasarımı"nı önerdi ve böylece "bağlamı birleştirme" yeteneğine sahip oldu.
RNN'nin ortaya çıkışı akademik dünyada araştırma heyecanını ateşledi, Transformer makalesinin yazarlarından biri de bir süre buna kapıldı. Ancak geliştiriciler çok geçmeden RNN'nin ciddi bir eksikliği olduğunu fark ettiler: bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözse de, çalışma verimliliği yüksek değil ve büyük miktarda parametreyi işlemekte zorlanıyor.
RNN'nin karmaşık tasarımı, araştırmacıları kısa sürede sıkmaya başladı. 2015 yılından itibaren, bir grup fikir birliği içinde olan bilim insanı, RNN'nin alternatiflerini geliştirmeye başladı ve nihayetinde elde edilen sonuç Transformer oldu.
RNN'ye kıyasla, Transformer'ın iki büyük yeniliği var: birincisi, döngüsel tasarım yerine konum kodlaması kullanarak paralel hesaplamayı gerçekleştiriyor, bu da eğitim verimliliğini büyük ölçüde artırarak AI'nın büyük model çağını girmesini sağlıyor; ikincisi, bağlamı anlama yeteneğini daha da güçlendiriyor.
Transformer birçok sorunu bir anda çözdü ve giderek doğal dil işleme alanında ana akım bir çözüm haline geldi. Hatta RNN'nin kurucuları bile Transformer cephesine geçti. Denilebilir ki, Transformer günümüzdeki tüm büyük modellerin temelidir ve büyük modelleri teorik araştırmadan mühendislik sorununa dönüştürmüştür.
2019 yılında, bir AI şirketi Transformer tabanlı GPT-2'yi geliştirerek akademik dünyayı bir süre şaşırttı. Buna yanıt olarak, bir teknoloji devi hızla daha güçlü bir AI sistemi sundu. GPT-2 ile karşılaştırıldığında, bu sistemde herhangi bir algoritma yeniliği yoktu, sadece eğitim parametreleri ve hesaplama gücünde büyük bir artış sağlandı. Transformer makalesinin yazarları bu tür "şiddetli yığmayı" büyük bir şaşkınlıkla karşıladı ve düşüncelerini kaydetmek için bir not yazdılar.
Transformer'ın ortaya çıkması, akademik alandaki temel algoritma yeniliklerinin hızını yavaşlattı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmasının anahtarları haline geliyor. Belirli bir teknik yeterliliğe sahip olan her şirket, büyük modeller geliştirebilir.
Bu nedenle, tanınmış bir AI uzmanı konuşmasında şunları söyledi: "AI, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve üretken AI dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi genel teknolojilerdir."
Bir AI şirketi hala büyük dil modellerinin yön belirleyicisi olsa da, sektördeki analizler, rekabet gücünün esasen mühendislik çözümlerinden kaynaklandığını düşünüyor. Eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir. Bir analist, yakında diğer büyük teknoloji şirketlerinin de eşit performansa sahip büyük modeller geliştirebileceğini öngörüyor.
Büyük Model Yarışmasının Karşılaştığı Zorluklar
Şu anda, "Bai Mo Savaşı" artık bir retorik değil, nesnel bir gerçekliktir.
İlgili raporlar, bu yıl Temmuz ayı itibarıyla Çin'de büyük model sayısının 130'a ulaştığını ve Amerika'nın 114 modelini geçtiğini göstermektedir. Çin ve Amerika dışında, bazı daha zengin ülkeler de "bir ülke bir model" hedefine ulaşmış durumda: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümeti tarafından desteklenen Bhashini ve Güney Koreli internet şirketi tarafından geliştirilen HyperClova X gibi modeller de bulunmaktadır.
Bu manzara, yıllar önceki internet balonu dönemine benziyor, sermaye birbiri ardına akın ediyor.
Daha önce belirtildiği gibi, Transformer büyük modelleri mühendislik sorununa dönüştürüyor; yeter ki yeterli insan kaynağı, finansman ve donanım bulunsun, gerisini parametre ayarlamalarına bırakabilirsiniz. Ancak giriş engelinin düşmesi, herkesin AI çağının devlerinden biri olabileceği anlamına gelmiyor.
Makalede bahsedilen "model savaşı" tipik bir örnektir: Bir model sıralamada önde olsa da, belirli bir teknoloji devi üzerinde ne kadar büyük bir etki yarattığını söylemek zordur.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak olarak sunuyorlar, hem teknolojik kazançları toplumla paylaşmak için hem de kamu zekasından yararlanmak için. Farklı sektörlerin belirli bir açık kaynak modelini sürekli kullanıp geliştirmesiyle, ana şirket bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif geliştirici topluluğu temel rekabet avantajıdır.
Bir sosyal medya devi, 2015 yılında AI laboratuvarı kurduğunda, açık kaynak stratejisini belirlemişti; kurucusu "topluluk ilişkilerini sürdürme" konusunda derin bilgiye sahip. Bu yıl Ekim ayında, şirket ayrıca "AI Yaratıcı Teşvik" etkinliğini başlattı: açık kaynak modelini kullanarak eğitim, çevre gibi sosyal sorunları çözen geliştiricilerin 50.000 dolar hibe alma fırsatı var.
Bugün, şirketin açık kaynak model serisi sektör standardı haline gelmiştir. Ekim ayının başı itibarıyla, bir açık kaynak model sıralamasında ilk 10'da yer alan 8 model bu seri temel alınarak oluşturulmuştur. Sadece bu platformda, açık kaynak lisansını kullanan model sayısı 1500'ü aşmaktadır.
Elbette, model performansını artırmak da mümkündür, ancak şu anda piyasadaki çoğu model, en üst düzey AI sistemleri ile hala belirgin bir fark arz etmektedir.
Örneğin, kısa süre önce bir AI sistemi AgentBench testinde 4.41 puan alarak birinci oldu. AgentBench, birçok tanınmış üniversitenin ortaklaşa geliştirdiği bir sistemdir ve büyük modellerin çok boyutlu açık ortamlardaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 görevden oluşmaktadır.
Test sonuçları, ikinci sıradaki kişinin yalnızca 2.77 puan aldığını, aradaki farkın belirgin olduğunu gösteriyor. O büyük açık kaynaklı modeller ise test skorlarının çoğunlukla 1 puan civarında olduğunu, şampiyonun dörtte birine bile ulaşamadığını ortaya koyuyor.
Bilmek gerekir ki, en güçlü AI sistemi bu yıl Mart ayında piyasaya sürüldü, bu da küresel rakiplerin yarım yıldan fazla bir süre sonra gelmesinin bir sonucudur. Bu farkın nedeni, şirketin yüksek kalitede araştırma ekibi ve uzun süreli birikimi ile sürekli olarak öncü konumunu korumasıdır.
Başka bir deyişle, büyük modellerin temel avantajı parametre sayısı değil, ekosistem inşasıdır ( açık kaynak yolu ) veya saf çıkarım yeteneği ( kapalı kaynak yolu ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, çeşitli modellerin performansı benzer mimariler ve veri setleri kullanıldığı için benzeşebilir.
Bir diğer daha gerçekçi sorun: Az sayıda örnek dışında, görünüşe göre henüz hiçbir büyük model kâr elde edemedi.
Büyük Modellerin Karşılaştığı Ekonomik Baskılar
Bu yılın Ağustos ayında, "Bir AI şirketinin 2024 yılı sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin özünü neredeyse bir cümleyle özetlemek mümkün: Şirketin harcama hızı çok hızlı.
Metinde, belirli bir diyalog yapay zeka sistemi geliştirdikten sonra, şirketin zararlarının hızla büyüdüğü ve yalnızca 2022'de yaklaşık 5,4 milyar dolar kaybettiği, bunun sadece yatırımcıların desteğiyle sürdürülebileceği belirtiliyor.
Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu yansıtmaktadır: maliyetler ile gelirler arasında ciddi bir dengesizlik var.
Yüksek maliyetler, şu anda AI'ye gerçekten kâr eden yalnızca birkaç çip üreticisine bağımlı olmasına neden oluyor.
Danışmanlık şirketine göre, bir çip devinin bu yılın ikinci çeyreğinde 300.000'den fazla yüksek kaliteli AI çipi sattığı tahmin ediliyor. Bu, AI'yi eğitme konusunda son derece verimli bir çip ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları bu çipi almak için yarışıyor. Satılan çipler üst üste konulursa, ağırlığı 4,5 adet Boeing 747'ye eşit.
Bu çip şirketinin performansı hızla arttı, yıllık gelir %854 oranında büyüyerek Wall Street'i şok etti. Ayrıca, bu çip ikinci el piyasada 40.000-50.000 dolara satılmakta, oysa maliyeti yalnızca yaklaşık 3.000 dolar.
Yüksek hesaplama gücü maliyetleri, bir bakıma sektörün gelişimini engellemektedir. Tanınmış bir yatırım kuruluşu, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatına yaklaşık 200 milyar dolar yatırmayı planladığını tahmin etmiştir; buna karşılık, büyük model her yıl en fazla 75 milyar dolar gelir üretebilir, arada en az 125 milyar dolarlık bir boşluk bulunmaktadır.
Ayrıca, birkaç istisna dışında, çoğu yazılım şirketi büyük yatırımlar yaptıktan sonra hâlâ net bir kâr modeli bulamadı. Sektör lideri şirketler bile zorluklarla karşı karşıya.
Bir teknoloji devi ile AI şirketinin iş birliğiyle geliştirilen kod üretme aracı, her ne kadar aylık 10 dolar ücret alsa da, tesis maliyetleri nedeniyle her ay 20 dolar zarar ediyor. Ağır kullanıcılar, şirketin her ay 80 dolar zarar etmesine neden olabiliyor. Buna dayanarak, aylık 30 dolara sunulan bir AI asistan hizmetinin daha fazla zarar edebileceği tahmin ediliyor.
Aynı şekilde, yeni AI araçları çıkaran bir yazılım devi de kullanıcıların aşırı kullanımını önlemek için hızlı bir şekilde bir puan sistemi başlattı ve şirketin zarar etmesini engelledi. Kullanıcılar aylık tahsis edilen puanı aştığında, şirket hizmet hızını düşürecektir.
Bu iki şirketin zaten net iş senaryoları ve çok sayıda ücretli kullanıcısı var. Çoğu parametre ölçeği büyük modelin en önemli uygulama senaryosu hala diyalog.
Inkâr edilemez ki, eğer o AI şirketi ve onun diyalog sistemi çıkmasaydı, bu AI devrimi meydana gelmeyebilirdi. Ancak şu anda, büyük modellerin eğitilmesiyle yaratılan değer henüz tartışmalıdır.
Ayrıca, homojen rekabetin artması ve açık kaynak modellerin sayısının artmasıyla, yalnızca büyük model hizmeti sunan şirketler daha büyük bir baskı ile karşılaşabilir.
Bir akıllı telefonun başarısının nedeni gelişmiş işlemcisi değil, çeşitli popüler uygulamaları çalıştırabilme yeteneğiyse, büyük modellerin değeri de nihayetinde belirli uygulama senaryolarında kendini göstermelidir.