La guerre des cent modèles dans le domaine de l'IA : de l'innovation technique à la pratique de l'ingénierie
Le mois dernier, l'industrie de l'IA a suscité une intense compétition de modèles.
D'un côté, il y a un grand modèle de langage open-source lancé par un géant technologique, qui est très apprécié des développeurs en raison de sa nature ouverte. Une entreprise japonaise, après avoir étudié les articles et le code source de ce modèle, a rapidement développé un système d'IA de conversation en japonais, résolvant ainsi le goulot d'étranglement du développement de l'IA au Japon.
L'autre partie est un grand modèle appelé "Falcon". En mai de cette année, le Falcon-40B a été lancé, dominant ses concurrents et obtenant la première place dans le classement des LLM open source.
Ce classement a été réalisé par une communauté de modèles open source, fournissant un ensemble de normes pour évaluer les capacités des LLM. Le classement est essentiellement occupé à tour de rôle par ces deux modèles.
Début septembre, "Hawk" a lancé la version 180B, atteignant à nouveau un classement plus élevé. Fait intéressant, les développeurs de "Hawk" ne sont pas une entreprise technologique, mais une institution de recherche située aux Émirats Arabes Unis. Des responsables émiratis ont déclaré qu'ils participaient à cette course pour rompre le statu quo.
Aujourd'hui, le domaine de l'IA est entré dans une phase de concurrence ouverte. Tous les pays et entreprises disposant d'un certain pouvoir financier planifient de créer leur propre version locale des systèmes d'IA de dialogue. Rien que dans la région du Golfe, il y a plus d'un acteur en train de se positionner. En août, l'Arabie saoudite a acheté des milliers de puces AI haut de gamme pour les universités nationales, afin de former de grands modèles de langage.
Un investisseur célèbre s'est exclamé sur les réseaux sociaux : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, je pensais qu'il n'y avait pas de barrière. Je ne m'attendais pas à ce que l'entrepreneuriat autour des grands modèles de technologie dure, c'est toujours une bataille de centaines de modèles..."
Comment la soi-disant technologie matérielle de haute difficulté est-elle devenue un domaine de compétition entre les pays?
L'algorithme Transformer déclenche la révolution de l'IA
Que ce soit des start-ups américaines, des géants technologiques chinois ou des magnats du pétrole du Moyen-Orient, la capacité à s'engager dans la recherche de grands modèles doit son succès à cet article célèbre : « Attention Is All You Need ».
En 2017, huit scientifiques de Google ont rendu public l'algorithme Transformer dans cet article. Cet article est actuellement le troisième plus cité dans le domaine de l'IA, et l'apparition de Transformer a déclenché cette vague actuelle d'enthousiasme pour l'IA.
Les divers grands modèles actuels, quelle que soit leur nationalité, y compris la célèbre série GPT, sont tous basés sur le Transformer.
Auparavant, "enseigner aux machines à lire" était un défi académique reconnu. Contrairement à la reconnaissance d'images, la lecture humaine ne se concentre pas seulement sur les mots et les phrases actuels, mais comprend également le contexte. Les entrées des premiers réseaux de neurones étaient indépendantes les unes des autres, ce qui rendait difficile la compréhension de longs textes, voire d'articles entiers, entraînant ainsi des erreurs de traduction parfois cocasses.
Jusqu'en 2014, un informaticien a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a considérablement amélioré les performances d'un certain système de traduction. Les RNN ont proposé un "design récurrent", permettant à chaque neurone de recevoir à la fois l'entrée actuelle et l'entrée du moment précédent, lui conférant ainsi la capacité de "comprendre le contexte".
L'apparition des RNN a enflammé l'enthousiasme de recherche dans le milieu académique, et l'un des auteurs du papier sur les Transformers a également été captivé par cela pendant un certain temps. Cependant, les développeurs se sont vite rendu compte que les RNN avaient de graves défauts : cet algorithme utilise un calcul séquentiel, bien qu'il résolve le problème du contexte, il n'est pas très efficace en termes de performance et a du mal à gérer un grand nombre de paramètres.
La conception complexe des RNN a rapidement ennuyé les chercheurs. À partir de 2015, un groupe de scientifiques partageant les mêmes idées a commencé à développer des alternatives aux RNN, dont le résultat final est le Transformer.
Comparé aux RNN, le Transformer possède deux grandes innovations : la première est l'utilisation de l'encodage de position qui remplace la conception récurrente, permettant un calcul parallèle, augmentant considérablement l'efficacité de l'entraînement et propulsant l'IA dans l'ère des grands modèles ; la seconde est une amélioration supplémentaire de la capacité à comprendre le contexte.
Le Transformer a résolu de nombreux problèmes d'un coup, devenant progressivement la solution dominante en traitement du langage naturel. Même les créateurs des RNN ont rejoint le camp des Transformers. On peut dire que le Transformer est la base de tous les grands modèles actuels, transformant les grands modèles d'une recherche théorique en un problème d'ingénierie.
En 2019, une certaine entreprise d'IA a développé GPT-2 basé sur Transformer, ce qui a impressionné le monde académique. En réponse, un certain géant de la technologie a rapidement lancé un système d'IA plus puissant. Comparé à GPT-2, ce système n'a pas d'innovation algorithmique, il a simplement considérablement augmenté le nombre de paramètres d'entraînement et la puissance de calcul. Les auteurs de l'article sur Transformer ont été profondément choqués par cette "accumulation brutale" et ont écrit un mémo pour enregistrer leurs réflexions.
L'émergence des Transformateurs a ralenti le rythme d'innovation des algorithmes de base dans le milieu académique. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles deviennent de plus en plus cruciaux dans la compétition en IA. Toute entreprise ayant une certaine capacité technique peut développer de grands modèles.
Ainsi, un expert en IA bien connu a déclaré lors d'une conférence : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et l'IA générative. Ce sont toutes des technologies générales, similaires à l'électricité et à Internet."
Bien qu'une certaine entreprise d'IA reste un indicateur de référence pour les grands modèles de langage, les analystes du secteur estiment que sa compétitivité provient principalement de ses solutions d'ingénierie. Si ces solutions étaient open source, n'importe quel concurrent pourrait rapidement les reproduire. Des analystes prévoient que d'autres grandes entreprises technologiques seront bientôt en mesure de développer des modèles de grande taille aux performances équivalentes.
Les défis auxquels fait face la compétition des grands modèles
Actuellement, la "guerre des cent modèles" n'est plus une rhétorique, mais une réalité objective.
Des rapports connexes indiquent qu'à la fin de juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis. En dehors de la Chine et des États-Unis, certains pays relativement riches ont également réalisé un "modèle par pays" : en plus du Japon et des Émirats Arabes Unis, il y a le Bhashini piloté par le gouvernement indien, et le HyperClova X développé par une entreprise Internet sud-coréenne.
Cette scène rappelle l'effervescence de l'époque de la bulle Internet, lorsque le capital affluait en masse.
Comme mentionné précédemment, le Transformer a transformé les grands modèles en un problème d'ingénierie; tant qu'il y a des talents, des fonds et du matériel, le reste est laissé à l'optimisation des paramètres. Cependant, la baisse des barrières à l'entrée ne signifie pas que tout le monde peut devenir un géant à l'ère de l'IA.
Le "conflit de modèles" mentionné au début de l'article est un exemple typique : bien qu'un certain modèle soit en tête du classement, il est difficile de dire quel impact cela a eu sur un certain géant technologique.
Comme tout le monde le sait, les entreprises ouvrent leurs résultats de recherche au public, non seulement pour partager les dividendes technologiques avec la société, mais aussi pour tirer parti de l'intelligence collective. À mesure que divers secteurs continuent d'utiliser et d'améliorer un modèle open source, sa société mère peut appliquer ces résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle.
Un géant des médias sociaux a établi une stratégie open source dès 2015 lors de la création de son laboratoire d'IA ; son fondateur maîtrise l'art de "maintenir les relations communautaires". En octobre de cette année, l'entreprise a également lancé une initiative appelée "Incitation pour les créateurs d'IA" : les développeurs utilisant son modèle open source pour résoudre des problèmes sociaux tels que l'éducation et l'environnement ont la possibilité de recevoir un financement de 500 000 dollars.
Aujourd'hui, la série de modèles open source de cette entreprise est devenue une référence dans l'industrie. Au début d'octobre, parmi les 10 premiers du classement des modèles open source, 8 sont basés sur cette série. Rien que sur cette plateforme, plus de 1500 modèles utilisent son protocole open source.
Bien sûr, améliorer les performances des modèles n'est pas une mauvaise idée, mais la plupart des modèles sur le marché présentent encore un écart évident par rapport aux systèmes d'IA de premier plan.
Par exemple, tout récemment, un certain système d'IA a remporté la première place avec un score de 4,41 lors du test AgentBench. AgentBench a été lancé par plusieurs universités renommées pour évaluer les capacités de raisonnement et de décision des grands modèles dans des environnements ouverts multidimensionnels. Les contenus du test comprennent 8 tâches, telles que les systèmes d'exploitation, les bases de données, les graphes de connaissances et les batailles de cartes.
Les résultats des tests montrent que le deuxième a seulement 2,77 points, avec un écart évident. Quant à ces modèles open source très médiatisés, leurs résultats aux tests se situent généralement autour de 1 point, soit moins d'un quart du champion.
Il faut savoir que le système d'IA le plus performant a été lancé en mars de cette année, ce qui est le résultat de plusieurs mois de rattrapage par les concurrents mondiaux. Cette différence est due à l'équipe de recherche de haut niveau de cette entreprise et à son expérience accumulée au fil du temps, ce qui lui permet de rester en tête.
En d'autres termes, l'avantage principal des grands modèles n'est pas le nombre de paramètres, mais la construction de l'écosystème ( la voie open source ) ou la capacité de raisonnement pure ( la voie closed source ).
Avec l'essor de la communauté open source, les performances de divers modèles pourraient tendre à se rapprocher, car tout le monde utilise des architectures et des ensembles de données similaires.
Un autre problème plus réaliste est que, à part quelques exceptions, il ne semble pas qu'un grand modèle ait réussi à être rentable.
Les pressions économiques auxquelles sont confrontés les grands modèles
En août de cette année, un article intitulé "Une certaine entreprise d'IA pourrait faire faillite d'ici fin 2024" a suscité l'attention. Le sujet de l'article peut presque être résumé en une seule phrase : les dépenses de cette entreprise sont trop rapides.
Le texte mentionne qu'après le développement d'un certain système d'IA de dialogue, les pertes de l'entreprise se sont rapidement aggravées, avec une perte d'environ 540 millions de dollars en 2022, ne pouvant compter que sur le soutien des investisseurs.
Bien que le titre de l'article soit exagéré, il reflète néanmoins la situation de nombreux fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Des coûts trop élevés signifient qu'actuellement, seuls quelques fabricants de puces parviennent réellement à réaliser des bénéfices grâce à l'IA.
Selon les estimations d'une société de conseil, un géant des puces a vendu plus de 300 000 puces AI haut de gamme au cours du deuxième trimestre de cette année. Il s'agit d'une puce extrêmement efficace pour entraîner l'IA, que les entreprises technologiques et les instituts de recherche du monde entier s'arrachent. Si l'on empile les puces vendues, leur poids équivaut à celui de 4,5 avions Boeing 747.
Les performances de cette entreprise de puces ont explosé, avec une augmentation des revenus de 854 % par rapport à l'année précédente, ce qui a surpris Wall Street. Il convient de noter que cette puce est désormais échangée sur le marché de l'occasion à 40 000-50 000 dollars, alors que son coût n'est d'environ que 3 000 dollars.
Le coût élevé de la puissance de calcul a freiné le développement de l'industrie dans une certaine mesure. Une institution d'investissement bien connue a estimé que les entreprises technologiques mondiales devraient investir 200 milliards de dollars par an dans l'infrastructure des grands modèles ; en revanche, les grands modèles ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, avec un écart d'au moins 125 milliards de dollars.
De plus, à part quelques exceptions, la plupart des entreprises de logiciels n'ont pas encore trouvé de modèle de rentabilité clair après avoir investi des sommes considérables. Même les entreprises leaders du secteur font face à des difficultés.
Un outil de génération de code développé en collaboration entre un géant technologique et une entreprise d'IA. Bien qu'il coûte 10 dollars par mois, l'entreprise perd en fait 20 dollars par mois en raison des coûts d'infrastructure, et les utilisateurs intensifs peuvent même faire perdre 80 dollars par mois à l'entreprise. Par conséquent, on peut supposer qu'un service d'assistant IA au prix de 30 dollars pourrait être encore plus déficitaire.
De même, un géant du logiciel qui vient de lancer des outils AI a rapidement mis en ligne un système de points, limitant l'utilisation excessive par les utilisateurs pour éviter des pertes pour l'entreprise. Une fois que les utilisateurs dépassent les points alloués chaque mois, l'entreprise réduit la vitesse du service.
Ces deux entreprises ont déjà des scénarios commerciaux clairs et un grand nombre d'utilisateurs payants. En revanche, pour la plupart des modèles de grande taille, le principal cas d'utilisation reste le dialogue.
Il est indéniable que sans l'émergence d'une certaine entreprise d'IA et de son système de dialogue, cette révolution de l'IA n'aurait peut-être pas eu lieu. Cependant, la valeur créée par l'entraînement des grands modèles reste à débattre.
De plus, avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, les entreprises qui offrent uniquement des services de grands modèles pourraient faire face à une pression accrue.
Tout comme le succès d'un smartphone n'est pas dû à son processeur avancé, mais à sa capacité à exécuter diverses applications populaires, la valeur des grands modèles doit finalement se manifester dans des cas d'utilisation spécifiques.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
12 J'aime
Récompense
12
8
Reposter
Partager
Commentaire
0/400
P2ENotWorking
· 08-13 04:24
Tondre sans pitié la laine des fabricants
Voir l'originalRépondre0
Whale_Whisperer
· 08-12 11:34
Les institutions s'impliquent toutes, je ne fais que flotter.
Voir l'originalRépondre0
ChainBrain
· 08-11 20:47
C'est à peu près nul, non ?
Voir l'originalRépondre0
GasFeeVictim
· 08-11 20:46
Encore une voiture de GPU brûlée.
Voir l'originalRépondre0
blocksnark
· 08-11 20:45
Tondre les moutons du capital
Voir l'originalRépondre0
Rekt_Recovery
· 08-11 20:45
honnêtement, ce truc de faucon me donne un gros PTSD de marché haussier... on dirait un autre piège de levier qui attend de se produire
Voir l'originalRépondre0
GasFeeLady
· 08-11 20:41
tout comme les frais de gas sur eth... ces modèles d'IA continuent de pump et dump lmao
Voir l'originalRépondre0
HashBrownies
· 08-11 20:25
Les modèles de joueurs sont comparés en fonction de la taille de leurs paramètres.
Compétition des grands modèles d'IA : de l'innovation académique à la pratique d'ingénierie, une multitude de voix s'affrontent.
La guerre des cent modèles dans le domaine de l'IA : de l'innovation technique à la pratique de l'ingénierie
Le mois dernier, l'industrie de l'IA a suscité une intense compétition de modèles.
D'un côté, il y a un grand modèle de langage open-source lancé par un géant technologique, qui est très apprécié des développeurs en raison de sa nature ouverte. Une entreprise japonaise, après avoir étudié les articles et le code source de ce modèle, a rapidement développé un système d'IA de conversation en japonais, résolvant ainsi le goulot d'étranglement du développement de l'IA au Japon.
L'autre partie est un grand modèle appelé "Falcon". En mai de cette année, le Falcon-40B a été lancé, dominant ses concurrents et obtenant la première place dans le classement des LLM open source.
Ce classement a été réalisé par une communauté de modèles open source, fournissant un ensemble de normes pour évaluer les capacités des LLM. Le classement est essentiellement occupé à tour de rôle par ces deux modèles.
Début septembre, "Hawk" a lancé la version 180B, atteignant à nouveau un classement plus élevé. Fait intéressant, les développeurs de "Hawk" ne sont pas une entreprise technologique, mais une institution de recherche située aux Émirats Arabes Unis. Des responsables émiratis ont déclaré qu'ils participaient à cette course pour rompre le statu quo.
Aujourd'hui, le domaine de l'IA est entré dans une phase de concurrence ouverte. Tous les pays et entreprises disposant d'un certain pouvoir financier planifient de créer leur propre version locale des systèmes d'IA de dialogue. Rien que dans la région du Golfe, il y a plus d'un acteur en train de se positionner. En août, l'Arabie saoudite a acheté des milliers de puces AI haut de gamme pour les universités nationales, afin de former de grands modèles de langage.
Un investisseur célèbre s'est exclamé sur les réseaux sociaux : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, je pensais qu'il n'y avait pas de barrière. Je ne m'attendais pas à ce que l'entrepreneuriat autour des grands modèles de technologie dure, c'est toujours une bataille de centaines de modèles..."
Comment la soi-disant technologie matérielle de haute difficulté est-elle devenue un domaine de compétition entre les pays?
L'algorithme Transformer déclenche la révolution de l'IA
Que ce soit des start-ups américaines, des géants technologiques chinois ou des magnats du pétrole du Moyen-Orient, la capacité à s'engager dans la recherche de grands modèles doit son succès à cet article célèbre : « Attention Is All You Need ».
En 2017, huit scientifiques de Google ont rendu public l'algorithme Transformer dans cet article. Cet article est actuellement le troisième plus cité dans le domaine de l'IA, et l'apparition de Transformer a déclenché cette vague actuelle d'enthousiasme pour l'IA.
Les divers grands modèles actuels, quelle que soit leur nationalité, y compris la célèbre série GPT, sont tous basés sur le Transformer.
Auparavant, "enseigner aux machines à lire" était un défi académique reconnu. Contrairement à la reconnaissance d'images, la lecture humaine ne se concentre pas seulement sur les mots et les phrases actuels, mais comprend également le contexte. Les entrées des premiers réseaux de neurones étaient indépendantes les unes des autres, ce qui rendait difficile la compréhension de longs textes, voire d'articles entiers, entraînant ainsi des erreurs de traduction parfois cocasses.
Jusqu'en 2014, un informaticien a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a considérablement amélioré les performances d'un certain système de traduction. Les RNN ont proposé un "design récurrent", permettant à chaque neurone de recevoir à la fois l'entrée actuelle et l'entrée du moment précédent, lui conférant ainsi la capacité de "comprendre le contexte".
L'apparition des RNN a enflammé l'enthousiasme de recherche dans le milieu académique, et l'un des auteurs du papier sur les Transformers a également été captivé par cela pendant un certain temps. Cependant, les développeurs se sont vite rendu compte que les RNN avaient de graves défauts : cet algorithme utilise un calcul séquentiel, bien qu'il résolve le problème du contexte, il n'est pas très efficace en termes de performance et a du mal à gérer un grand nombre de paramètres.
La conception complexe des RNN a rapidement ennuyé les chercheurs. À partir de 2015, un groupe de scientifiques partageant les mêmes idées a commencé à développer des alternatives aux RNN, dont le résultat final est le Transformer.
Comparé aux RNN, le Transformer possède deux grandes innovations : la première est l'utilisation de l'encodage de position qui remplace la conception récurrente, permettant un calcul parallèle, augmentant considérablement l'efficacité de l'entraînement et propulsant l'IA dans l'ère des grands modèles ; la seconde est une amélioration supplémentaire de la capacité à comprendre le contexte.
Le Transformer a résolu de nombreux problèmes d'un coup, devenant progressivement la solution dominante en traitement du langage naturel. Même les créateurs des RNN ont rejoint le camp des Transformers. On peut dire que le Transformer est la base de tous les grands modèles actuels, transformant les grands modèles d'une recherche théorique en un problème d'ingénierie.
En 2019, une certaine entreprise d'IA a développé GPT-2 basé sur Transformer, ce qui a impressionné le monde académique. En réponse, un certain géant de la technologie a rapidement lancé un système d'IA plus puissant. Comparé à GPT-2, ce système n'a pas d'innovation algorithmique, il a simplement considérablement augmenté le nombre de paramètres d'entraînement et la puissance de calcul. Les auteurs de l'article sur Transformer ont été profondément choqués par cette "accumulation brutale" et ont écrit un mémo pour enregistrer leurs réflexions.
L'émergence des Transformateurs a ralenti le rythme d'innovation des algorithmes de base dans le milieu académique. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles deviennent de plus en plus cruciaux dans la compétition en IA. Toute entreprise ayant une certaine capacité technique peut développer de grands modèles.
Ainsi, un expert en IA bien connu a déclaré lors d'une conférence : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et l'IA générative. Ce sont toutes des technologies générales, similaires à l'électricité et à Internet."
Bien qu'une certaine entreprise d'IA reste un indicateur de référence pour les grands modèles de langage, les analystes du secteur estiment que sa compétitivité provient principalement de ses solutions d'ingénierie. Si ces solutions étaient open source, n'importe quel concurrent pourrait rapidement les reproduire. Des analystes prévoient que d'autres grandes entreprises technologiques seront bientôt en mesure de développer des modèles de grande taille aux performances équivalentes.
Les défis auxquels fait face la compétition des grands modèles
Actuellement, la "guerre des cent modèles" n'est plus une rhétorique, mais une réalité objective.
Des rapports connexes indiquent qu'à la fin de juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis. En dehors de la Chine et des États-Unis, certains pays relativement riches ont également réalisé un "modèle par pays" : en plus du Japon et des Émirats Arabes Unis, il y a le Bhashini piloté par le gouvernement indien, et le HyperClova X développé par une entreprise Internet sud-coréenne.
Cette scène rappelle l'effervescence de l'époque de la bulle Internet, lorsque le capital affluait en masse.
Comme mentionné précédemment, le Transformer a transformé les grands modèles en un problème d'ingénierie; tant qu'il y a des talents, des fonds et du matériel, le reste est laissé à l'optimisation des paramètres. Cependant, la baisse des barrières à l'entrée ne signifie pas que tout le monde peut devenir un géant à l'ère de l'IA.
Le "conflit de modèles" mentionné au début de l'article est un exemple typique : bien qu'un certain modèle soit en tête du classement, il est difficile de dire quel impact cela a eu sur un certain géant technologique.
Comme tout le monde le sait, les entreprises ouvrent leurs résultats de recherche au public, non seulement pour partager les dividendes technologiques avec la société, mais aussi pour tirer parti de l'intelligence collective. À mesure que divers secteurs continuent d'utiliser et d'améliorer un modèle open source, sa société mère peut appliquer ces résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle.
Un géant des médias sociaux a établi une stratégie open source dès 2015 lors de la création de son laboratoire d'IA ; son fondateur maîtrise l'art de "maintenir les relations communautaires". En octobre de cette année, l'entreprise a également lancé une initiative appelée "Incitation pour les créateurs d'IA" : les développeurs utilisant son modèle open source pour résoudre des problèmes sociaux tels que l'éducation et l'environnement ont la possibilité de recevoir un financement de 500 000 dollars.
Aujourd'hui, la série de modèles open source de cette entreprise est devenue une référence dans l'industrie. Au début d'octobre, parmi les 10 premiers du classement des modèles open source, 8 sont basés sur cette série. Rien que sur cette plateforme, plus de 1500 modèles utilisent son protocole open source.
Bien sûr, améliorer les performances des modèles n'est pas une mauvaise idée, mais la plupart des modèles sur le marché présentent encore un écart évident par rapport aux systèmes d'IA de premier plan.
Par exemple, tout récemment, un certain système d'IA a remporté la première place avec un score de 4,41 lors du test AgentBench. AgentBench a été lancé par plusieurs universités renommées pour évaluer les capacités de raisonnement et de décision des grands modèles dans des environnements ouverts multidimensionnels. Les contenus du test comprennent 8 tâches, telles que les systèmes d'exploitation, les bases de données, les graphes de connaissances et les batailles de cartes.
Les résultats des tests montrent que le deuxième a seulement 2,77 points, avec un écart évident. Quant à ces modèles open source très médiatisés, leurs résultats aux tests se situent généralement autour de 1 point, soit moins d'un quart du champion.
Il faut savoir que le système d'IA le plus performant a été lancé en mars de cette année, ce qui est le résultat de plusieurs mois de rattrapage par les concurrents mondiaux. Cette différence est due à l'équipe de recherche de haut niveau de cette entreprise et à son expérience accumulée au fil du temps, ce qui lui permet de rester en tête.
En d'autres termes, l'avantage principal des grands modèles n'est pas le nombre de paramètres, mais la construction de l'écosystème ( la voie open source ) ou la capacité de raisonnement pure ( la voie closed source ).
Avec l'essor de la communauté open source, les performances de divers modèles pourraient tendre à se rapprocher, car tout le monde utilise des architectures et des ensembles de données similaires.
Un autre problème plus réaliste est que, à part quelques exceptions, il ne semble pas qu'un grand modèle ait réussi à être rentable.
Les pressions économiques auxquelles sont confrontés les grands modèles
En août de cette année, un article intitulé "Une certaine entreprise d'IA pourrait faire faillite d'ici fin 2024" a suscité l'attention. Le sujet de l'article peut presque être résumé en une seule phrase : les dépenses de cette entreprise sont trop rapides.
Le texte mentionne qu'après le développement d'un certain système d'IA de dialogue, les pertes de l'entreprise se sont rapidement aggravées, avec une perte d'environ 540 millions de dollars en 2022, ne pouvant compter que sur le soutien des investisseurs.
Bien que le titre de l'article soit exagéré, il reflète néanmoins la situation de nombreux fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Des coûts trop élevés signifient qu'actuellement, seuls quelques fabricants de puces parviennent réellement à réaliser des bénéfices grâce à l'IA.
Selon les estimations d'une société de conseil, un géant des puces a vendu plus de 300 000 puces AI haut de gamme au cours du deuxième trimestre de cette année. Il s'agit d'une puce extrêmement efficace pour entraîner l'IA, que les entreprises technologiques et les instituts de recherche du monde entier s'arrachent. Si l'on empile les puces vendues, leur poids équivaut à celui de 4,5 avions Boeing 747.
Les performances de cette entreprise de puces ont explosé, avec une augmentation des revenus de 854 % par rapport à l'année précédente, ce qui a surpris Wall Street. Il convient de noter que cette puce est désormais échangée sur le marché de l'occasion à 40 000-50 000 dollars, alors que son coût n'est d'environ que 3 000 dollars.
Le coût élevé de la puissance de calcul a freiné le développement de l'industrie dans une certaine mesure. Une institution d'investissement bien connue a estimé que les entreprises technologiques mondiales devraient investir 200 milliards de dollars par an dans l'infrastructure des grands modèles ; en revanche, les grands modèles ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, avec un écart d'au moins 125 milliards de dollars.
De plus, à part quelques exceptions, la plupart des entreprises de logiciels n'ont pas encore trouvé de modèle de rentabilité clair après avoir investi des sommes considérables. Même les entreprises leaders du secteur font face à des difficultés.
Un outil de génération de code développé en collaboration entre un géant technologique et une entreprise d'IA. Bien qu'il coûte 10 dollars par mois, l'entreprise perd en fait 20 dollars par mois en raison des coûts d'infrastructure, et les utilisateurs intensifs peuvent même faire perdre 80 dollars par mois à l'entreprise. Par conséquent, on peut supposer qu'un service d'assistant IA au prix de 30 dollars pourrait être encore plus déficitaire.
De même, un géant du logiciel qui vient de lancer des outils AI a rapidement mis en ligne un système de points, limitant l'utilisation excessive par les utilisateurs pour éviter des pertes pour l'entreprise. Une fois que les utilisateurs dépassent les points alloués chaque mois, l'entreprise réduit la vitesse du service.
Ces deux entreprises ont déjà des scénarios commerciaux clairs et un grand nombre d'utilisateurs payants. En revanche, pour la plupart des modèles de grande taille, le principal cas d'utilisation reste le dialogue.
Il est indéniable que sans l'émergence d'une certaine entreprise d'IA et de son système de dialogue, cette révolution de l'IA n'aurait peut-être pas eu lieu. Cependant, la valeur créée par l'entraînement des grands modèles reste à débattre.
De plus, avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, les entreprises qui offrent uniquement des services de grands modèles pourraient faire face à une pression accrue.
Tout comme le succès d'un smartphone n'est pas dû à son processeur avancé, mais à sa capacité à exécuter diverses applications populaires, la valeur des grands modèles doit finalement se manifester dans des cas d'utilisation spécifiques.