Війна моделей у сфері штучного інтелекту: від технічних інновацій до інженерної практики
Минулого місяця в галузі штучного інтелекту розгорнулася запекла конкуренція моделей.
Одна сторона - це відкритий великий мовний модель, випущений певним технологічним гігантом, який завдяки своїй відкритій природі користується великою популярністю серед розробників. Одна японська компанія, вивчивши статті та вихідний код цієї моделі, швидко розробила японську версію діалогової системи ШІ, що вирішило проблему розвитку ШІ в Японії.
Інша сторона - це великий модель під назвою "Сокіл". У травні цього року з'явився Falcon-40B, який зайняв перше місце в рейтингу відкритих LLM, випередивши своїх суперників.
Цей рейтинг був створений спільнотою відкритих моделей для забезпечення стандартів оцінки можливостей LLM. Рейтинг в основному займають ці два моделі, які чергуються.
На початку вересня "Сокіл" випустив версію 180B, знову піднявшись у рейтингах. Цікаво, що розробники "Сокола" не є технологічною компанією, а дослідницькою установою з Об'єднаних Арабських Еміратів. Офіційні особи ОАЕ заявили, що вони беруть участь у цьому змаганні, щоб зламати існуючі схеми.
Сьогодні сфера ШІ увійшла в етап активного змагання. Будь-яка країна та компанія, яка має певний фінансовий потенціал, планує створення власних версій діалогових систем ШІ. Лише в регіоні Затоки є кілька гравців, які займаються цим. У серпні Саудівська Аравія придбала тисячі високоякісних ШІ-чіпів для університетів країни, щоб навчати великі мовні моделі.
Відомий інвестор на соціальних мережах висловився: "Коли я дивився на інновації бізнес-моделей Інтернету, вважав, що немає жодних бар'єрів. Неочікувано, стартапи у сфері жорстких технологій та великих моделей все ще ведуть боротьбу між собою..."
Як же так сталося, що так звані високі технології стали ареною, за яку змагаються різні країни?
Алгоритм Transformer спричинив революцію в ШІ
Незалежно від того, чи це американські стартапи, китайські технологічні гіганти чи нафтові магнати Близького Сходу, можливість займатися розробкою великих моделей стала можливою завдяки знаменитій статті: «Увага — це все, що вам потрібно».
У 2017 році 8 вчених з Google опублікували алгоритм Transformer у цій статті, відкривши його для всього світу. Ця стаття наразі є третьою за кількістю цитувань у сфері ШІ, а поява Transformer спричинила цю хвилю захоплення ШІ.
Сучасні великі моделі, незалежно від національності, включаючи всесвітньо відомі серії GPT, побудовані на основі Transformer.
До цього часу "навчити машину читати" залишалося визнаною академічною проблемою. На відміну від розпізнавання зображень, під час читання людина не лише звертає увагу на поточні слова та речення, але й враховує контекст для розуміння. Ранні нейронні мережі мали незалежний вхід, що ускладнювало розуміння довгих текстів або навіть цілих статей, тому часто виникали кумедні помилки в перекладі.
До 2014 року комп'ютерний вчений використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що значно підвищило ефективність певної системи перекладу. RNN запропонувала "циклічний дизайн", який дозволяє кожному нейрону отримувати як поточний вхід, так і вхід з попереднього часу, тим самим надаючи йому можливість "поєднувати контекст".
Поява RNN запалила дослідницький ентузіазм у науковому середовищі, один з авторів статті про Transformer також певний час занурився в це. Однак розробники швидко усвідомили, що RNN має серйозні недоліки: цей алгоритм використовує послідовні обчислення, хоча й вирішує проблему контексту, але не має високої ефективності роботи і важко обробляє велику кількість параметрів.
Складний дизайн RNN швидко набрид дослідникам. З 2015 року група однодумців-науковців почала розробляти альтернативи RNN, і в результаті з'явився Transformer.
У порівнянні з RNN, Transformer має дві великі інновації: по-перше, використання позиційного кодування замість циклічного дизайну, що реалізує паралельні обчислення, значно підвищуючи ефективність навчання, що веде до ери великих моделей у ШІ; по-друге, подальше посилення здатності розуміти контекст.
Transformer в один момент вирішив безліч проблем і поступово став основним рішенням у обробці природної мови. Навіть творці RNN перейшли на бік Transformer. Можна сказати, що Transformer є основою всіх великих моделей сьогодні, він перетворив великі моделі з теоретичного дослідження на інженерну задачу.
У 2019 році одна компанія штучного інтелекту на базі Transformer розробила GPT-2, яка вразила академічний світ. У відповідь одна технологічна гігантська компанія швидко випустила більш потужну систему штучного інтелекту. У порівнянні з GPT-2, ця система не мала алгоритмічних інновацій, а лише значно збільшила кількість параметрів для навчання та обчислювальної потужності. Автори статті про Transformer були шоковані таким "брутальним накопиченням", написавши меморандум, щоб зафіксувати свої враження.
Виникнення Transformer сповільнило темпи інновацій у базових алгоритмах у науковій сфері. Інженерні елементи, такі як обробка даних, обсяги обчислювальної потужності та архітектура моделей, стають все більш ключовими у змаганнях з ШІ. Будь-яка компанія з певними технічними можливостями може розробити великі моделі.
Тому відомий експерт з ШІ під час виступу заявив: "ШІ - це набір інструментів, що включає в себе навчання з наглядом, навчання без нагляду, навчання з підкріпленням та генеративний ШІ. Це загальні технології, подібні до електрики та Інтернету."
Хоча певна AI-компанія все ще є орієнтиром для великих мовних моделей, експерти в галузі вважають, що її конкурентоспроможність в основному походить від інженерних рішень. Якщо це буде з відкритим кодом, будь-який конкурент зможе швидко це скопіювати. Аналітики прогнозують, що незабаром інші великі технологічні компанії також зможуть розробити моделі з аналогічною продуктивністю.
Виклики, з якими стикаються великі моделі в змаганнях
На даний момент "Битва за сотні моделей" більше не є риторикою, а є об'єктивною реальністю.
Згідно з відповідними звітами, станом на липень цього року в Китаї вже налічується 130 великих моделей, що перевищує 114 у США. Крім Китаю та США, деякі більш заможні країни також попередньо реалізували концепцію "одна країна - одна модель": крім Японії та ОАЕ, це також Bhashini, який керується урядом Індії, та HyperClova X, розроблений корейською інтернет-компанією.
Ця сцена нагадує розквіт інтернет-бульбашки, коли капітал ринув у цю сферу.
Як вже було зазначено раніше, Transformer перетворив великі моделі на інженерну задачу: все, що потрібно, це талановиті кадри, фінансування та апаратура, а решту можна довірити налаштуванню параметрів. Але зниження бар'єрів для входження не означає, що кожен може стати гігантом епохи ШІ.
На початку статті згадується "суперечка моделей", яка є типовим прикладом: хоча якась модель займає перше місце в рейтингу, важко сказати, якої шкоди вона завдала певному технологічному гіганту.
Відомо, що компанії відкривають свої дослідницькі результати, щоб поділитися технологічними бонусами з суспільством, а також сподіваються скористатися мудрістю мас. У міру того, як різні сфери постійно використовують і вдосконалюють певну відкриту модель, її материнська компанія може застосовувати ці результати у своїх продуктах.
Для відкритих моделей великого масштабу активна спільнота розробників є основною конкурентною перевагою.
Одна з великих соціальних мереж ще в 2015 році створила AI-лабораторію та визначила стратегію відкритого коду; її засновник добре знає "як підтримувати стосунки у спільноті". У жовтні цього року компанія також спеціально запустила акцію "Стимулювання AI-творців": розробники, які використовують її відкриту модель для вирішення соціальних проблем, таких як освіта, навколишнє середовище, мають можливість отримати фінансування в розмірі 500 тисяч доларів.
Сьогодні серія відкритих моделей компанії стала еталоном у галузі. Станом на початок жовтня, 8 з 10 найкращих відкритих моделей у рейтингу були створені на основі цієї серії. Тільки на цій платформі використано понад 1500 моделей, що базуються на її відкритій ліцензії.
Звичайно, підвищення продуктивності моделі також не завадить, але наразі більшість моделей на ринку все ще мають помітний розрив із провідними AI-системами.
Наприклад, нещодавно певна AI-система здобула перше місце з результатом 4.41 балів у тестуванні AgentBench. AgentBench був спільно запущений кількома відомими університетами для оцінки здатності великих моделей до міркування та прийняття рішень у багатовимірному відкритому середовищі, тестові завдання включають операційні системи, бази даних, графи знань, карткові битви та інші 8 завдань.
Результати тестування показують, що друге місце лише на 2,77 бала, різниця очевидна. Що стосується тих гучних відкритих моделей, результати тестування зазвичай близько 1 бала, що навіть не становить чверті від чемпіона.
Слід зазначити, що найпотужніша AI-система була випущена в березні цього року, і це результат більш ніж піврічного відставання від колег з усього світу. Причиною цього розриву є висококваліфікована науково-дослідна команда компанії та накопичений досвід, що дозволяє їй постійно зберігати лідерство.
Іншими словами, основна перевага великих моделей полягає не в кількості параметрів, а в екосистемі ( відкритих шляхах ) або чистій здатності до висновків ( закритих шляхів ).
З огляду на активізацію відкритих спільнот, продуктивність різних моделей може зрештою зрівнятися, адже всі використовують подібні архітектури та набори даних.
Інша, більш реалістична проблема полягає в тому, що, за винятком кількох випадків, здається, жодна з великих моделей ще не змогла стати прибутковою.
Економічний тиск, з яким стикаються великі моделі
У серпні цього року з'явилася стаття під заголовком "Якась AI-компанія може оголосити про банкрутство наприкінці 2024 року", яка привернула увагу. Основна ідея статті майже зводиться до одного речення: компанія витрачає кошти занадто швидко.
У тексті згадується, що після розробки певної системи діалогового ШІ, збитки компанії швидко зросли, і лише у 2022 році вона зазнала збитків приблизно на 540 мільйонів доларів, змушена покладатися лише на інвесторів.
Хоча заголовок статті є перебільшенням, він також відображає ситуацію багатьох постачальників великих моделей: витрати та доходи серйозно не збалансовані.
Занадто високі витрати призвели до того, що в даний час тільки кілька виробників чіпів дійсно отримують прибуток від штучного інтелекту.
Згідно з оцінками консалтингової компанії, один з провідних виробників чипів у другому кварталі цього року продав понад 300 тисяч високопродуктивних чіпів для ШІ. Це чіп, який має дуже високу ефективність для навчання ШІ, і технологічні компанії та дослідницькі установи по всьому світу змагаються за його придбання. Якщо скласти продані чіпи один на один, вага буде приблизно такою ж, як 4,5 літака Boeing 747.
Ця компанія з виробництва чіпів показала різкий ріст показників, зафіксувавши зростання доходів на 854% у річному обчисленні, що шокувало Уолл-стріт. Варто зазначити, що цей чіп на вторинному ринку вже продається за 40-50 тисяч доларів, тоді як його собівартість становить лише близько 3000 доларів.
Високі витрати на обчислювальні потужності певною мірою заважають розвитку галузі. Одна відома інвестиційна компанія оцінювала, що світові технологічні компанії щорічно планують інвестувати 200 мільярдів доларів у будівництво інфраструктури для великих моделей; порівняно з цим, великі моделі можуть щорічно генерувати максимум 75 мільярдів доларів доходу, існує принаймні 125 мільярдів доларів дефіциту.
Крім того, за винятком кількох випадків, більшість програмних компаній, після того як вклали великі кошти, ще не знайшли чіткої моделі прибутку. Навіть провідні компанії галузі стикаються з труднощами.
Деякий технологічний гігант у співпраці з компанією AI розробляє інструмент для генерації коду. Хоча він коштує 10 доларів на місяць, через витрати на обладнання компанія зазнає збитків у 20 доларів на місяць, а важкі користувачі можуть призвести до збитків у 80 доларів на місяць. Виходячи з цього, можна припустити, що AI-асистент, вартість якого становить 30 доларів, може зазнавати ще більших збитків.
Також, нещодавно представлений AI-інструментом, один з великих програмних гігантів швидко запровадив систему балів, обмежуючи надмірне використання користувачами, щоб уникнути збитків компанії. Як тільки користувач перевищує щомісячно виділені бали, компанія знижує швидкість обслуговування.
Ці дві компанії вже мають чіткі бізнес-сценарії та велику кількість платних користувачів. А найголовніми сценаріями використання великих моделей з параметрами залишаються діалоги.
Безсумнівно, якщо б не поява певної AI-компанії та її системи діалогу, ця AI-революція, можливо, не відбулася б. Але наразі цінність, створена при навчанні великих моделей, все ще підлягає обговоренню.
І, з огляду на посилення гомогенізації конкуренції та зростання кількості відкритих моделей, компанії, які просто надають послуги великих моделей, можуть зіткнутися з більшим тиском.
Як успіх певного смартфона не зумовлений його передовим процесором, а тим, що він може запускати різноманітні популярні додатки, так і цінність великих моделей врешті-решт має проявлятися в конкретних сценаріях застосування.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
12 лайків
Нагородити
12
8
Репост
Поділіться
Прокоментувати
0/400
P2ENotWorking
· 08-13 04:24
Сильно стригти вовну виробника
Переглянути оригіналвідповісти на0
Whale_Whisperer
· 08-12 11:34
Установи всі беруть участь, а я просто пливу за течією.
Переглянути оригіналвідповісти на0
ChainBrain
· 08-11 20:47
Мабуть, вже зовсім зіпсувалося.
Переглянути оригіналвідповісти на0
GasFeeVictim
· 08-11 20:46
Ще спалили вантажівку GPU.
Переглянути оригіналвідповісти на0
blocksnark
· 08-11 20:45
Грубо витягувати прибутки з капіталу
Переглянути оригіналвідповісти на0
Rekt_Recovery
· 08-11 20:45
чесно кажучи, ця штука з соколом викликає в мене серйозний ПТСР від бичачого ринку... здається, це ще одна пастка для левереджу, яка чекає на свій момент.
Переглянути оригіналвідповісти на0
GasFeeLady
· 08-11 20:41
так само, як комісії за газ на eth... ці моделі ШІ постійно пампять і дамплять лол
Переглянути оригіналвідповісти на0
HashBrownies
· 08-11 20:25
Моделі учасників змагаються, у кого параметри більші
Конкурс великих моделей ШІ: від академічних інновацій до інженерної практики змагання сотень
Війна моделей у сфері штучного інтелекту: від технічних інновацій до інженерної практики
Минулого місяця в галузі штучного інтелекту розгорнулася запекла конкуренція моделей.
Одна сторона - це відкритий великий мовний модель, випущений певним технологічним гігантом, який завдяки своїй відкритій природі користується великою популярністю серед розробників. Одна японська компанія, вивчивши статті та вихідний код цієї моделі, швидко розробила японську версію діалогової системи ШІ, що вирішило проблему розвитку ШІ в Японії.
Інша сторона - це великий модель під назвою "Сокіл". У травні цього року з'явився Falcon-40B, який зайняв перше місце в рейтингу відкритих LLM, випередивши своїх суперників.
Цей рейтинг був створений спільнотою відкритих моделей для забезпечення стандартів оцінки можливостей LLM. Рейтинг в основному займають ці два моделі, які чергуються.
На початку вересня "Сокіл" випустив версію 180B, знову піднявшись у рейтингах. Цікаво, що розробники "Сокола" не є технологічною компанією, а дослідницькою установою з Об'єднаних Арабських Еміратів. Офіційні особи ОАЕ заявили, що вони беруть участь у цьому змаганні, щоб зламати існуючі схеми.
Сьогодні сфера ШІ увійшла в етап активного змагання. Будь-яка країна та компанія, яка має певний фінансовий потенціал, планує створення власних версій діалогових систем ШІ. Лише в регіоні Затоки є кілька гравців, які займаються цим. У серпні Саудівська Аравія придбала тисячі високоякісних ШІ-чіпів для університетів країни, щоб навчати великі мовні моделі.
Відомий інвестор на соціальних мережах висловився: "Коли я дивився на інновації бізнес-моделей Інтернету, вважав, що немає жодних бар'єрів. Неочікувано, стартапи у сфері жорстких технологій та великих моделей все ще ведуть боротьбу між собою..."
Як же так сталося, що так звані високі технології стали ареною, за яку змагаються різні країни?
Алгоритм Transformer спричинив революцію в ШІ
Незалежно від того, чи це американські стартапи, китайські технологічні гіганти чи нафтові магнати Близького Сходу, можливість займатися розробкою великих моделей стала можливою завдяки знаменитій статті: «Увага — це все, що вам потрібно».
У 2017 році 8 вчених з Google опублікували алгоритм Transformer у цій статті, відкривши його для всього світу. Ця стаття наразі є третьою за кількістю цитувань у сфері ШІ, а поява Transformer спричинила цю хвилю захоплення ШІ.
Сучасні великі моделі, незалежно від національності, включаючи всесвітньо відомі серії GPT, побудовані на основі Transformer.
До цього часу "навчити машину читати" залишалося визнаною академічною проблемою. На відміну від розпізнавання зображень, під час читання людина не лише звертає увагу на поточні слова та речення, але й враховує контекст для розуміння. Ранні нейронні мережі мали незалежний вхід, що ускладнювало розуміння довгих текстів або навіть цілих статей, тому часто виникали кумедні помилки в перекладі.
До 2014 року комп'ютерний вчений використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що значно підвищило ефективність певної системи перекладу. RNN запропонувала "циклічний дизайн", який дозволяє кожному нейрону отримувати як поточний вхід, так і вхід з попереднього часу, тим самим надаючи йому можливість "поєднувати контекст".
Поява RNN запалила дослідницький ентузіазм у науковому середовищі, один з авторів статті про Transformer також певний час занурився в це. Однак розробники швидко усвідомили, що RNN має серйозні недоліки: цей алгоритм використовує послідовні обчислення, хоча й вирішує проблему контексту, але не має високої ефективності роботи і важко обробляє велику кількість параметрів.
Складний дизайн RNN швидко набрид дослідникам. З 2015 року група однодумців-науковців почала розробляти альтернативи RNN, і в результаті з'явився Transformer.
У порівнянні з RNN, Transformer має дві великі інновації: по-перше, використання позиційного кодування замість циклічного дизайну, що реалізує паралельні обчислення, значно підвищуючи ефективність навчання, що веде до ери великих моделей у ШІ; по-друге, подальше посилення здатності розуміти контекст.
Transformer в один момент вирішив безліч проблем і поступово став основним рішенням у обробці природної мови. Навіть творці RNN перейшли на бік Transformer. Можна сказати, що Transformer є основою всіх великих моделей сьогодні, він перетворив великі моделі з теоретичного дослідження на інженерну задачу.
У 2019 році одна компанія штучного інтелекту на базі Transformer розробила GPT-2, яка вразила академічний світ. У відповідь одна технологічна гігантська компанія швидко випустила більш потужну систему штучного інтелекту. У порівнянні з GPT-2, ця система не мала алгоритмічних інновацій, а лише значно збільшила кількість параметрів для навчання та обчислювальної потужності. Автори статті про Transformer були шоковані таким "брутальним накопиченням", написавши меморандум, щоб зафіксувати свої враження.
Виникнення Transformer сповільнило темпи інновацій у базових алгоритмах у науковій сфері. Інженерні елементи, такі як обробка даних, обсяги обчислювальної потужності та архітектура моделей, стають все більш ключовими у змаганнях з ШІ. Будь-яка компанія з певними технічними можливостями може розробити великі моделі.
Тому відомий експерт з ШІ під час виступу заявив: "ШІ - це набір інструментів, що включає в себе навчання з наглядом, навчання без нагляду, навчання з підкріпленням та генеративний ШІ. Це загальні технології, подібні до електрики та Інтернету."
Хоча певна AI-компанія все ще є орієнтиром для великих мовних моделей, експерти в галузі вважають, що її конкурентоспроможність в основному походить від інженерних рішень. Якщо це буде з відкритим кодом, будь-який конкурент зможе швидко це скопіювати. Аналітики прогнозують, що незабаром інші великі технологічні компанії також зможуть розробити моделі з аналогічною продуктивністю.
Виклики, з якими стикаються великі моделі в змаганнях
На даний момент "Битва за сотні моделей" більше не є риторикою, а є об'єктивною реальністю.
Згідно з відповідними звітами, станом на липень цього року в Китаї вже налічується 130 великих моделей, що перевищує 114 у США. Крім Китаю та США, деякі більш заможні країни також попередньо реалізували концепцію "одна країна - одна модель": крім Японії та ОАЕ, це також Bhashini, який керується урядом Індії, та HyperClova X, розроблений корейською інтернет-компанією.
Ця сцена нагадує розквіт інтернет-бульбашки, коли капітал ринув у цю сферу.
Як вже було зазначено раніше, Transformer перетворив великі моделі на інженерну задачу: все, що потрібно, це талановиті кадри, фінансування та апаратура, а решту можна довірити налаштуванню параметрів. Але зниження бар'єрів для входження не означає, що кожен може стати гігантом епохи ШІ.
На початку статті згадується "суперечка моделей", яка є типовим прикладом: хоча якась модель займає перше місце в рейтингу, важко сказати, якої шкоди вона завдала певному технологічному гіганту.
Відомо, що компанії відкривають свої дослідницькі результати, щоб поділитися технологічними бонусами з суспільством, а також сподіваються скористатися мудрістю мас. У міру того, як різні сфери постійно використовують і вдосконалюють певну відкриту модель, її материнська компанія може застосовувати ці результати у своїх продуктах.
Для відкритих моделей великого масштабу активна спільнота розробників є основною конкурентною перевагою.
Одна з великих соціальних мереж ще в 2015 році створила AI-лабораторію та визначила стратегію відкритого коду; її засновник добре знає "як підтримувати стосунки у спільноті". У жовтні цього року компанія також спеціально запустила акцію "Стимулювання AI-творців": розробники, які використовують її відкриту модель для вирішення соціальних проблем, таких як освіта, навколишнє середовище, мають можливість отримати фінансування в розмірі 500 тисяч доларів.
Сьогодні серія відкритих моделей компанії стала еталоном у галузі. Станом на початок жовтня, 8 з 10 найкращих відкритих моделей у рейтингу були створені на основі цієї серії. Тільки на цій платформі використано понад 1500 моделей, що базуються на її відкритій ліцензії.
Звичайно, підвищення продуктивності моделі також не завадить, але наразі більшість моделей на ринку все ще мають помітний розрив із провідними AI-системами.
Наприклад, нещодавно певна AI-система здобула перше місце з результатом 4.41 балів у тестуванні AgentBench. AgentBench був спільно запущений кількома відомими університетами для оцінки здатності великих моделей до міркування та прийняття рішень у багатовимірному відкритому середовищі, тестові завдання включають операційні системи, бази даних, графи знань, карткові битви та інші 8 завдань.
Результати тестування показують, що друге місце лише на 2,77 бала, різниця очевидна. Що стосується тих гучних відкритих моделей, результати тестування зазвичай близько 1 бала, що навіть не становить чверті від чемпіона.
Слід зазначити, що найпотужніша AI-система була випущена в березні цього року, і це результат більш ніж піврічного відставання від колег з усього світу. Причиною цього розриву є висококваліфікована науково-дослідна команда компанії та накопичений досвід, що дозволяє їй постійно зберігати лідерство.
Іншими словами, основна перевага великих моделей полягає не в кількості параметрів, а в екосистемі ( відкритих шляхах ) або чистій здатності до висновків ( закритих шляхів ).
З огляду на активізацію відкритих спільнот, продуктивність різних моделей може зрештою зрівнятися, адже всі використовують подібні архітектури та набори даних.
Інша, більш реалістична проблема полягає в тому, що, за винятком кількох випадків, здається, жодна з великих моделей ще не змогла стати прибутковою.
Економічний тиск, з яким стикаються великі моделі
У серпні цього року з'явилася стаття під заголовком "Якась AI-компанія може оголосити про банкрутство наприкінці 2024 року", яка привернула увагу. Основна ідея статті майже зводиться до одного речення: компанія витрачає кошти занадто швидко.
У тексті згадується, що після розробки певної системи діалогового ШІ, збитки компанії швидко зросли, і лише у 2022 році вона зазнала збитків приблизно на 540 мільйонів доларів, змушена покладатися лише на інвесторів.
Хоча заголовок статті є перебільшенням, він також відображає ситуацію багатьох постачальників великих моделей: витрати та доходи серйозно не збалансовані.
Занадто високі витрати призвели до того, що в даний час тільки кілька виробників чіпів дійсно отримують прибуток від штучного інтелекту.
Згідно з оцінками консалтингової компанії, один з провідних виробників чипів у другому кварталі цього року продав понад 300 тисяч високопродуктивних чіпів для ШІ. Це чіп, який має дуже високу ефективність для навчання ШІ, і технологічні компанії та дослідницькі установи по всьому світу змагаються за його придбання. Якщо скласти продані чіпи один на один, вага буде приблизно такою ж, як 4,5 літака Boeing 747.
Ця компанія з виробництва чіпів показала різкий ріст показників, зафіксувавши зростання доходів на 854% у річному обчисленні, що шокувало Уолл-стріт. Варто зазначити, що цей чіп на вторинному ринку вже продається за 40-50 тисяч доларів, тоді як його собівартість становить лише близько 3000 доларів.
Високі витрати на обчислювальні потужності певною мірою заважають розвитку галузі. Одна відома інвестиційна компанія оцінювала, що світові технологічні компанії щорічно планують інвестувати 200 мільярдів доларів у будівництво інфраструктури для великих моделей; порівняно з цим, великі моделі можуть щорічно генерувати максимум 75 мільярдів доларів доходу, існує принаймні 125 мільярдів доларів дефіциту.
Крім того, за винятком кількох випадків, більшість програмних компаній, після того як вклали великі кошти, ще не знайшли чіткої моделі прибутку. Навіть провідні компанії галузі стикаються з труднощами.
Деякий технологічний гігант у співпраці з компанією AI розробляє інструмент для генерації коду. Хоча він коштує 10 доларів на місяць, через витрати на обладнання компанія зазнає збитків у 20 доларів на місяць, а важкі користувачі можуть призвести до збитків у 80 доларів на місяць. Виходячи з цього, можна припустити, що AI-асистент, вартість якого становить 30 доларів, може зазнавати ще більших збитків.
Також, нещодавно представлений AI-інструментом, один з великих програмних гігантів швидко запровадив систему балів, обмежуючи надмірне використання користувачами, щоб уникнути збитків компанії. Як тільки користувач перевищує щомісячно виділені бали, компанія знижує швидкість обслуговування.
Ці дві компанії вже мають чіткі бізнес-сценарії та велику кількість платних користувачів. А найголовніми сценаріями використання великих моделей з параметрами залишаються діалоги.
Безсумнівно, якщо б не поява певної AI-компанії та її системи діалогу, ця AI-революція, можливо, не відбулася б. Але наразі цінність, створена при навчанні великих моделей, все ще підлягає обговоренню.
І, з огляду на посилення гомогенізації конкуренції та зростання кількості відкритих моделей, компанії, які просто надають послуги великих моделей, можуть зіткнутися з більшим тиском.
Як успіх певного смартфона не зумовлений його передовим процесором, а тим, що він може запускати різноманітні популярні додатки, так і цінність великих моделей врешті-решт має проявлятися в конкретних сценаріях застосування.