Vue d’ensemble de la famille Phi-3

Microsoft a récemment lancé la famille Phi-3, une suite de petits modèles de langage (SLM) conçus pour apporter une technologie d’IA générative avancée à un plus grand nombre de plates-formes, y compris les appareils mobiles.

La famille se compose de trois modèles distincts : le Phi-3 Mini avec 3,8 milliards de paramètres, le Phi-3 Small avec 7 milliards de paramètres et le Phi-3 Medium avec 14 milliards de paramètres.

L’initiative de Microsoft est un effort stratégique visant à démocratiser la technologie de l’IA, en la rendant accessible et opérationnelle dans divers environnements matériels, élargissant ainsi les applications potentielles de l’IA dans la technologie mobile de tous les jours.

Développement et capacités de Phi-3

En tant que dernière avancée dans l’offre de modèles linguistiques de Microsoft, Phi-3 est un pas en avant par rapport à ses prédécesseurs, Phi-1 et Phi-2. Phi-2 a notamment été équipé pour gérer 2,7 milliards de paramètres et surpasser des modèles plus grands qui font jusqu’à 25 fois sa taille.

Les progrès réalisés dans ce domaine s’inscrivent dans le cadre de l’engagement pris par Microsoft de renforcer l’efficacité et l’évolutivité de ses modèles d’IA. Dans ce contexte, les paramètres mesurent la capacité du modèle à traiter et à comprendre des instructions complexes – un indicateur clé de son utilité potentielle et de l’étendue de ses applications.

Spécifications techniques et performances

La série Phi-3 peut être quantifiée sur 4 bits, ce qui réduit son empreinte mémoire à environ 1,8 Go. L’optimisation en fait un choix idéal pour le déploiement sur des appareils mobiles où l’efficacité de la mémoire est essentielle.

Le Phi-3 Mini, notamment, a été testé avec succès sur un iPhone 14 équipé d’une puce A16 Bionic. Ses performances, évaluées à l’aide de critères académiques rigoureux et de tests internes, sont comparables à celles de modèles beaucoup plus grands, tels que le GPT-3.5.

Données et méthodologie de la formation

Le régime d’entraînement des modèles Phi-3 comprend un mélange de données web fortement filtrées et de données synthétiques produites par des modèles de langage plus importants. Cette approche est divisée en deux phases : la phase initiale se concentre sur la transmission de connaissances générales et la compréhension de la langue à l’aide de données provenant du web.

La deuxième phase améliore les capacités du modèle grâce à un mélange de données web et d’entrées synthétiques encore plus raffinées, en se concentrant sur le développement d’un raisonnement logique avancé et d’ensembles de compétences spécialisées. Cette stratégie de formation structurée et progressive permet de s’assurer que les modèles développés sont robustes et polyvalents, tout en étant finement adaptés à des capacités cognitives spécifiques pour des tâches complexes de résolution de problèmes.

Changement de philosophie dans le développement de l’IA

Le développement par Microsoft de la série Phi-3 s’écarte de l’orientation traditionnelle vers des modèles plus grands et plus complexes pour se concentrer sur des modèles plus petits et plus spécialisés – réduisant ainsi la taille, l’efficacité fonctionnelle et la rentabilité du déploiement de l’intelligence artificielle.

Des modèles plus petits comme Phi-3 Mini, avec 3,8 milliards de paramètres, Phi-3 Small, avec 7 milliards de paramètres, et Phi-3 Medium, avec 14 milliards de paramètres, permettent d’équilibrer les performances et la charge de calcul.

Pour les organisations, en particulier celles dont les ressources sont limitées, l’introduction de ces modèles plus petits, mais puissants, offre une alternative viable aux grands modèles linguistiques (LLM), plus gourmands en ressources. Ils peuvent désormais tirer parti de capacités d’IA avancées sans avoir à supporter les coûts élevés d’exploitation et de maintenance qui sont généralement associés aux grands modèles.

Avantages et applications des SLM

Avantages des SLM

Les modèles Phi-3 offrent des avantages fondamentaux qui sont particulièrement importants dans l’environnement professionnel actuel qui évolue rapidement. Tout d’abord, ils excellent dans l’exécution de tâches simples avec un niveau de précision et de rapidité qui n’a rien à envier aux grands modèles. Leur conception permet une personnalisation plus aisée, ce qui constitue un attrait pour les entreprises qui cherchent à mettre en œuvre des solutions d’IA capables de s’adapter à leurs besoins opérationnels spécifiques.

Comme ces modèles peuvent être formés sur des ensembles de données spécifiques sans qu’il soit nécessaire d’exposer des informations sensibles, les organisations peuvent protéger leurs données propriétaires ou confidentielles tout en bénéficiant d’informations basées sur l’IA.

Un autre avantage clé réside dans la réduction de la probabilité de produire des résultats erronés, communément appelés « hallucinations », ce qui est un défi courant dans les modèles de grande taille. Les exigences réduites en matière de données et de prétraitement facilitent l’intégration et le déploiement des SLM dans les infrastructures informatiques existantes, ce qui rationalise le processus d’adoption.

Utilisation et adoption

Les implications pratiques des capacités de Phi-3 sont déjà visibles dans divers secteurs. Les institutions financières s’appuient sur ces modèles pour personnaliser davantage les interactions avec leurs clients, améliorant ainsi la qualité du service et la satisfaction des clients.

Les plateformes de commerce électronique exploitent les SLM pour adapter les recommandations et les expériences aux préférences individuelles des utilisateurs, ce qui stimule l’engagement et les ventes.

Les organisations à but non lucratif trouvent également ces modèles particulièrement avantageux, car elles peuvent déployer des solutions technologiques avancées adaptées à leurs ensembles de données uniques et à leurs besoins opérationnels sans avoir à supporter les coûts prohibitifs généralement associés à ce type de technologie.

La personnalisation des modèles sur la base des données individuelles des clients améliore l’expérience des utilisateurs et l’efficacité opérationnelle en concentrant les ressources sur les activités à forte valeur ajoutée adaptées aux interactions spécifiques avec les clients.

Défis et limites actuels

Les inexactitudes factuelles, la reproduction de biais, la génération de contenus inappropriés et les problèmes de sécurité restent des défis majeurs et persistants dans le développement de modèles linguistiques d’IA. Par exemple, malgré leurs capacités avancées, ces modèles peuvent encore générer ou amplifier par inadvertance des biais présents dans leurs données d’apprentissage, ce qui présente des risques dans les applications réelles.

Le Phi-3 Mini, spécialement conçu pour les plates-formes mobiles avec ses 3,8 milliards de paramètres, se heurte à des limites dans les tâches qui exigent des connaissances factuelles approfondies. En raison de sa petite taille par rapport aux modèles plus grands, sa capacité à stocker et à rappeler de grandes quantités d’informations est limitée, ce qui peut affecter ses performances dans des scénarios nécessitant une analyse approfondie et complète des données ou de grandes bases de connaissances.

Les modèles Phi-3 actuels s’appuient principalement sur l’anglais, ce qui limite leur applicabilité dans des contextes mondiaux et multilingues. Microsoft prévoit d’inclure d’autres langues dans les prochaines itérations, ce qui améliorera la polyvalence et la portée mondiale des modèles.

Perspectives d’avenir et positionnement sur le marché

Les petits modèles linguistiques (SLM) tels que Phi-3 introduisent une multitude de nouveaux outils d’IA, offrant aux utilisateurs la flexibilité de choisir le modèle optimal pour leurs besoins spécifiques. La présence sur le marché des SLM et des grands modèles linguistiques (LLM) crée un écosystème complémentaire dans lequel différents modèles peuvent être déployés en fonction de la complexité et de l’ampleur de la tâche.

Les organisations peuvent combiner les SLM et les LLM afin d’exploiter les forces uniques de chacune d’entre elles. Concrètement, une entreprise pourrait utiliser les SLM pour le traitement rapide et rentable des requêtes courantes, tout en réservant les LLM, plus grands et plus coûteux, aux tâches qui nécessitent une compréhension approfondie et nuancée ou la génération d’un texte de type humain.

 

Tim Boesen

avril 25, 2024

7 Min