Microsoft Research lance le premier cadre d’entraînement de grands modèles avec une

précision FP4, améliorant significativement l'efficacité
Le 29 janvier, Microsoft Research a annoncé le lancement de son premier cadre d'entraînement de grands modèles avec une précision FP4. Avec les mêmes paramètres d'hyperparamètres, ce cadre permet d'obtenir des résultats d'entraînement équivalents à ceux de FP8 et BF16. Cela signifie que les ressources nécessaires en termes de stockage et de calcul peuvent être réduites.
Taille du modèle et efficacité de l'entraînement
Les modèles entraînés avec cette méthode peuvent atteindre une taille allant jusqu'à 13 milliards de paramètres, avec un nombre de tokens d'entraînement atteignant des centaines de milliards. Bien que l'on utilise actuellement FP4 simulé via FP8, l'utilisation de FP4 réel améliorerait encore les résultats.
Simulation FP4 et méthodes d'entraînement
Comme il n'existait pas de matériel natif prenant en charge FP4 au moment de la recherche, l'équipe a simulé FP4 en utilisant les TensorCores FP8. Plus précisément, pour les modèles LLaMA de 1,3B, 7B et 13B, au cours de l'entraînement de 0 à 10 millions de tokens, la courbe de perte du modèle FP4 était pratiquement identique à celle de BF16.
Pour permettre l'entraînement à précision FP4, l'équipe a utilisé un noyau CUDA de multiplication matricielle FP4 personnalisé (GeMM). Dans ce noyau, les matrices A et B de FP4 sont d'abord lues dans la mémoire partagée en FP16 et transformées de manière appropriée, puis la multiplication matricielle en blocs est effectuée en FP4, et enfin les résultats intermédiaires sont réduits en FP16 pour produire une matrice de sortie au format FP16.
Stratégies de quantification et adaptation au matériel
Ce cadre utilise le format FP4 E2M1, où 2 bits représentent l'exposant, 1 bit représente la mantisse et 1 bit représente le signe, soit 4 bits au total. Ce format a été choisi pour correspondre à la conception des unités de calcul quantifié des accélérateurs ML actuels. Des stratégies de quantification de granularité différente ont été appliquées aux matrices de poids W et aux matrices d'activation A, maximisant l'effet d'accélération de FP4 dans la multiplication matricielle.
Innovations dans la propagation avant et arrière
Lorsque la propagation avant commence, le cadre quantifie simultanément les matrices de poids W et les matrices d'activation d'entrée A dans chaque couche linéaire en FP4. Lors de la quantification, les valeurs des matrices sont mises à l'échelle et décalées pour les mapper dans la plage que FP4 peut représenter, puis arrondies à la valeur discrète FP4 la plus proche à l'aide d'une table de consultation.
Dans le processus de rétropropagation, l'équipe a proposé une nouvelle méthode d'estimation des gradients différentiables pour garantir à la fois l'efficacité des calculs et la précision des gradients. En outre, pour traiter le problème des "valeurs aberrantes" dans les matrices d'activation, l'équipe a proposé une stratégie de "réduction des pics et de compensation des aberrations".
Conception et application de la précision mixte
Dans certaines étapes, l'équipe a utilisé une conception de précision mixte, en utilisant FP8 pour la communication des gradients et FP16 pour le stockage de l'état de l'optimiseur. Dans d'autres parties du système, telles que les calculs hors multiplication matricielle et le Loss Scaling, FP16 a également été utilisé. Ces conceptions réduisent au minimum le coût en calculs et en stockage tout en garantissant la stabilité numérique de l'entraînement.
Équipe de recherche et contexte
Ce cadre a été développé par Microsoft Research Asia et l'équipe SIGMA, tous les chercheurs étant d'origine chinoise. Le premier auteur, Ruizhe Wang, est doctorant à l'Université des sciences et technologies de Chine et effectue actuellement un stage chez MSRA, avec des recherches sur la quantification à faible précision. Le professeur Zhejun Cha, directeur du département de recherche à l'USTC, a également participé à ce projet. Les auteurs correspondant sont Peng Cheng, Senior Research Manager chez MSRA, et Yeyun Gong, Chief Research Manager. Le scientifique émérite de MSRA, Baining Guo, a également participé à ce projet.
Résumé
Le cadre d'entraînement de grands modèles avec précision FP4 lancé par Microsoft Research permet un entraînement de modèles plus efficace grâce à des stratégies de quantification innovantes et à la conception de précision mixte. Ce cadre améliore non seulement l'efficacité de l'entraînement, mais réduit également considérablement les besoins en ressources de calcul et de stockage, ouvrant ainsi de nouvelles voies pour l'entraînement de grands modèles.
Lien vers l'article : arXiv
Lien de référence : Twitter