Les ingénieurs logiciels développent un moyen d’exécuter des modèles de langage d’IA sans multiplication matricielle

News Team26 juin 20240156 views

Présentation du LM sans MatMul. La séquence d’opérations est affichée pour l’auto-attention vanille (en haut à gauche), le mélangeur de jetons sans MatMul (en haut à droite) et les accumulations ternaires. Le LM sans MatMul utilise un mélangeur de jetons sans MatMul (MLGRU) et un mélangeur de canaux sans MatMul (GLU sans MatMul) pour maintenir l’architecture de type transformateur tout en réduisant les coûts de calcul. Crédit: arXiv (2024). DOI : 10.48550/arxiv.2406.02528

Une équipe d’ingénieurs logiciels de l’Université de Californie, en collaboration avec un collègue de l’Université de Soochow et un autre de LuxiTec, a développé un moyen d’exécuter des modèles de langage d’IA sans recourir à la multiplication matricielle. L’équipe a publié un article sur arXiv serveur de prépublication décrivant leur nouvelle approche et son efficacité lors des tests.

À mesure que la puissance des LLM tels que ChatGPT a augmenté, les ressources informatiques dont ils ont besoin ont également augmenté. Une partie du processus d’exécution des LLM implique d’effectuer une multiplication matricielle (MatMul), où les données sont combinées avec des poids dans des réseaux neuronaux pour fournir probablement les meilleures réponses aux requêtes.

Très tôt, les chercheurs en IA ont découvert que les unités de traitement graphique (GPU) étaient parfaitement adaptées aux applications de réseaux neuronaux, car elles peuvent exécuter plusieurs processus simultanément, dans ce cas, plusieurs MatMuls. Mais désormais, même avec d’énormes clusters de GPU, les MatMuls sont devenus des goulots d’étranglement à mesure que la puissance des LLM augmente avec le nombre de personnes qui les utilisent.

Dans cette nouvelle étude, l’équipe de recherche affirme avoir développé un moyen d’exécuter des modèles de langage d’IA sans avoir besoin d’effectuer des MatMuls – et de le faire tout aussi efficacement.

Pour réaliser cet exploit, l’équipe de recherche a adopté une nouvelle approche de la façon dont les données sont pondérées : ils ont remplacé la méthode actuelle qui repose sur des virgules flottantes de 16 bits par une autre qui n’en utilise que trois : {-1, 0, 1} ainsi que de nouvelles fonctions. qui effectuent les mêmes types d’opérations que la méthode précédente.

Ils ont également développé de nouvelles techniques de quantification qui ont contribué à améliorer les performances. Avec moins de poids, moins de traitement est nécessaire, ce qui entraîne moins de puissance de calcul. Mais ils ont également radicalement changé la façon dont les LLM sont traités en utilisant ce qu’ils décrivent comme une unité récurrente linéaire à déclenchement sans MatMul (MLGRU) à la place des blocs de transformateurs traditionnels.

En testant leurs nouvelles idées, les chercheurs ont constaté qu’un système utilisant leur nouvelle approche atteignait des performances comparables à celles des systèmes de pointe actuellement utilisés. En même temps, ils ont constaté que leur système utilisait beaucoup moins de puissance de calcul et d’électricité que les systèmes traditionnels.

Plus d’information:
Rui-Jie Zhu et al, Modélisation du langage évolutive sans MatMul, arXiv (2024). DOI: 10.48550/arxiv.2406.02528

Informations sur la revue :
arXiv

Citation: Les ingénieurs logiciels développent un moyen d’exécuter des modèles de langage d’IA sans multiplication matricielle (26 juin 2024) récupéré le 26 juin 2024 sur

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans autorisation écrite. Le contenu est fourni seulement pour information.

politiques clés et impacts électoraux

La communication des lémuriens montre comment les humains ont évolué pour créer de la musique

Related posts

L’analyse révèle que la plupart des LLM majeurs en open source et en source fermée ont tendance à pencher à gauche lorsqu’on leur pose des questions à forte connotation politique

Une étude examine la contagion du suicide après le décès de célébrités, ouvrant des pistes de prévention

Sonder la capture du carbone, atome par atome, avec un modèle d’apprentissage automatique