Microsoft présente Windows AI Foundry

Microsoft adopte une position plus claire dans le domaine de l’IA avec ce qu’elle appelle la Windows AI Foundry. Il ne s’agit pas d’un simple changement de marque, mais d’une véritable mise à niveau de la manière dont l’IA est développée et déployée sur les machines Windows. Si vous créez des logiciels, dirigez des opérations ou gérez des infrastructures, c’est important.

La Windows AI Foundry s’appuie sur l’ancien Windows Copilot Runtime. Il regroupe désormais tous les outils d’IA basés sur Windows en un seul système de travail. Ce nouvel environnement prend en charge l’inférence sur l’appareil à l’aide du CPU, du GPU et du NPU (unités de traitement neuronal). Ce n’est pas de la théorie. L’infrastructure est réglée pour les modèles Phi Silica de Microsoft et d’autres modèles compacts qui ne dépendent pas du cloud. C’est énorme. Il s’agit de donner aux logiciels le pouvoir d’effectuer des tâches avancées directement sur l’appareil, y compris des choses comme la vision par ordinateur et le traitement de la parole, sans latence, sans problèmes de confidentialité et sans coûts liés au cloud.

Et oui, cela fait partie d’un alignement stratégique plus large avec l’approche AI Foundry d’Azure. Nous voyons Microsoft mettre à l’échelle sa pensée, en apportant le même système de développement de modèle unifié que vous obtenez dans le cloud jusqu’aux appareils que les gens utilisent déjà. Considérez cela comme de l’IA locale d’abord. Les ressources sous-jacentes sont plus puissantes, moins chères et déjà intégrées dans le matériel. La nouvelle gamme Surface, équipée de microprocesseurs NPU de Qualcomm, est proposée à un prix compétitif, à partir de 799 dollars.

Comme l’a dit Jatinder Mann, directeur des produits partenaires de Microsoft, Windows Platform et AI Runtime, « Nous apportons toute la puissance du cloud AI au client. » Il s’agit d’un changement essentiel pour les développeurs et pour toute entreprise qui souhaite intégrer des applications intelligentes à grande échelle.

Résultat : Si vous n « étudiez pas la façon dont l’IA peut réduire la latence, les coûts et la dépendance à l » égard des clouds externes, vous laissez de côté l’efficacité. L’IA ne s’exécute plus seulement dans le cloud, elle s’exécute là où se trouvent vos utilisateurs.

Foundry local permet le déploiement de modèles d’IA et une exécution adaptée au matériel.

Simplifions les choses. Foundry Local est l’outil qui gère la gestion et le déploiement des modèles directement sur votre PC Windows. Il lit le profil matériel de votre système, sélectionne la meilleure version d’un modèle d’IA, la télécharge et commence à l’exécuter. Pas de configuration complexe. Aucun réglage manuel n’est nécessaire.

Cela crée un véritable avantage opérationnel. Foundry Local garantit qu’une application d’IA tire pleinement parti des capacités de calcul disponibles, qu’il s’agisse d’un CPU, d’un GPU ou d’un NPU. Il expose également une interface REST simple, ce qui signifie que les développeurs peuvent s’y connecter avec la même syntaxe que celle utilisée pour les modèles basés sur le Cloud. Mêmes appels, même comportement, meilleures performances. Vous ne construisez pas deux systèmes distincts pour l’inférence dans le cloud et sur l’appareil, c’est unifié. Il s’agit d’une réduction importante des coûts d’ingénierie.

Les tests pratiques confirment cette flexibilité. D’un côté, vous avez un PC x64 équipé d’un GPU Nvidia. De l’autre, un appareil Windows Arm avec un NPU Qualcomm. Placez le même modèle Phi 4 Mini dans les deux avec Foundry Local, il fonctionne parfaitement. Le système sait quel runtime utiliser. Sur l’installation Arm, ce modèle a même utilisé le NPU directement, ce qui a été confirmé par le gestionnaire de tâches.

C’est ainsi que devrait se comporter l’intelligence artificielle de bout en bout. Les décisions de ce type sont importantes à l’échelle. Si votre entreprise possède des milliers d’appareils dotés de matériels très différents, ce type d’inférence adaptative réduit considérablement les frais généraux, à la fois en termes de temps et de calcul.

Plus important encore, il redonne le contrôle à l’entreprise. Lorsque vous n’avez pas besoin d’appeler une API externe externe pour générer des sorties intelligentes, vous redevenez propriétaire de l’expérience. C’est une question de coût, de contrôle et de rapidité, au niveau local. Cela va au-delà de la stratégie d’IA, cela remodèle la façon dont les logiciels d’entreprise sont construits.

Windows ML sert de moteur d’inférence fondamental.

Windows ML est l’épine dorsale qui supporte les charges de travail d’IA à travers la Windows AI Foundry. Il gère l’inférence, la partie où les modèles s’exécutent et produisent des résultats réels. Ce qui compte, c’est que ce moteur est optimisé pour une large gamme de matériel, des CPU de base aux GPU et NPU avancés. Il élimine toute ambiguïté concernant le déploiement des modèles. Le code écrit à l’aide des outils Windows AI s’exécute de manière fiable sur tous les appareils et toutes les configurations, sans nécessiter de réécriture spécifique au matériel.

Ce niveau d’abstraction signifie que les entreprises peuvent déployer des fonctions d’IA sur l’ensemble de leur parc d’appareils Windows sans se soucier de l’incohérence ou de l’inadéquation des performances. Les développeurs font passer les modèles par Windows ML, et la plateforme choisit automatiquement le meilleur runtime disponible pour exécuter ces modèles. Elle prend en charge le format ONNX, un standard largement adopté dans le monde de l’IA, de sorte que les équipes ne sont pas enfermées dans un écosystème fermé. Cela suffit à simplifier l’intégration à long terme et la mise à l’échelle.

L’intégration entre Windows ML et Foundry Local permet des mises à jour continues, une optimisation au niveau de l’appareil et une gestion centralisée des modèles. Le système peut automatiquement rechercher la meilleure variante de modèle et même la récupérer ou la mettre à jour en fonction du matériel de votre appareil en temps réel.

Pour les dirigeants qui supervisent les stratégies informatiques, il ne s’agit pas seulement d’une victoire technique, mais d’une stabilité opérationnelle. Elle garantit la compatibilité au fur et à mesure que les générations de matériel changent et ouvre les capacités de l’IA à la fois aux machines de développement haut de gamme et aux PC professionnels rentables. Vous créez un pipeline à l’épreuve du temps tout en maintenant une compatibilité totale avec votre chaîne d’outils existante.

Cette base facilite également la conformité et les tests. Un environnement d’exécution commun à tous les appareils permet d’accélérer les cycles d’assurance qualité et de réduire les risques lors du déploiement des mises à jour de l’intelligence artificielle. C’est un meilleur moyen d’évoluer de manière fiable tout en minimisant la charge de travail de l’ingénierie et de l’assistance.

Microsoft intègre le protocole de contexte de modèle (MCP)

Microsoft intègre le protocole MCP (Model Context Protocol) directement dans Windows afin de permettre aux agents d’intelligence artificielle (IA) de s’adapter à l’environnement. agents d’intelligence artificielle d’interagir avec les applications locales d’une manière propre et standard. Il ne s’agit pas d’une autre couche d’API abstraite. Le MCP permet aux agents d’intelligence artificielle d’accéder à des fonctions spécifiques des applications et de les utiliser sans avoir besoin d’une logique personnalisée pour chaque intégration.

Cela est important si vous créez en interne des flux de travail pilotés par l’IA ou des systèmes basés sur des agents. Avec MCP, les applications peuvent servir de sources de données ou d’exécuteurs de tâches pour les applications d’IA. Elles n’exposent que les fonctionnalités que vous souhaitez activer et le font en toute sécurité, en utilisant un modèle de serveur MCP local lié à un registre tenant compte des autorisations. Ces points de terminaison du protocole MC remplacent les efforts d’intégration fragmentés par une interface unique, découvrable et contrôlée que les agents d’intelligence artificielle peuvent appeler localement.

Kevin Scott, directeur technique de Microsoft, a qualifié MCP de « HTTP d’une plateforme d’IA distribuée ». Ce niveau de normalisation signifie que les applications écrites pour prendre en charge MCP sont beaucoup plus interopérables, non seulement entre les différents outils, mais aussi entre les systèmes et les agents d’intelligence artificielle.

Le PDG de Windows, Satya Nadella, a réaffirmé cette orientation lors de son discours de clôture, en mettant l’accent sur ce qu’il appelle « le web agentique ». Il ne s’agit pas d’un simple marketing. Il s’agit pour Microsoft de jeter les bases de la manière dont les services d’IA modernes et les applications utilisateur se connecteront, de manière native, sécurisée et dans des formats standard que les environnements d’entreprise pourront adopter rapidement.

Divya Venkataramu, directeur du marketing produit pour Windows Developer, a souligné que MCP offre « un cadre standardisé pour que les agents interagissent avec les applications natives de Windows via leurs serveurs MCP ». Cette déclaration indique clairement que Microsoft conçoit ces systèmes pour un déploiement en production, et non pour l’expérimentation.

Les entreprises qui cherchent à simplifier leurs intégrations d’IA tout en s’adaptant intelligemment devraient se pencher sérieusement sur la question. MCP s’annonce comme le nouveau langage commun pour les flux de travail pilotés par des agents, un langage qui ne nécessite pas la construction et la maintenance d’un intergiciel lourd ou la gestion d’un comportement imprévisible. Il est structuré. Il est sûr. Et il est déjà intégré à la plateforme Windows.

Les actions d’application permettent aux développeurs d’intégrer des fonctions spécifiques dans les flux de travail de l’IA.

Microsoft simplifie la manière dont les applications peuvent interagir avec les agents d’intelligence artificielle grâce aux App Actions. Il s’agit de points de terminaison structurés et déclaratifs au sein de votre logiciel qui peuvent être exposés à des agents à l’aide de définitions basées sur JSON. Contrairement aux API traditionnelles, les App Actions font partie d’un cadre conçu pour l’intégration dans des flux de travail intelligents. Vous définissez les actions que votre logiciel peut effectuer et comment, le système d’exploitation les rend ensuite accessibles aux systèmes d’intelligence artificielle qui en ont besoin.

Pour les équipes de développement, cela permet de réduire la quantité de documents de base nécessaires pour rendre les fonctionnalités compatibles avec les systèmes d’agents intelligents. Chaque action est enveloppée de métadonnées sémantiques et d’un accès contrôlé. Cela permet aux agents d’intelligence artificielle de découvrir et d’utiliser une action tout en préservant la sécurité de l’environnement d’exécution. Les actions sont classées par le biais d’entités définies, qui indiquent à l’agent les types d’entrée et de sortie auxquels il doit s’attendre. Vous disposez également d’un contrôle d’exécution, la possibilité de basculer la disponibilité des actions de manière dynamique, en fonction du contexte ou des autorisations de l’utilisateur.

Microsoft met à disposition l’App Actions Playground pour les tests et les itérations, et une prise en charge anticipée est intégrée dans la version préliminaire du Windows SDK. Cela permet d’aligner le développement sur les normes de l’entreprise, en permettant des tests proactifs et une interaction contrôlée par l’utilisateur.

Pour les acteurs de l’entreprise, les App Actions sont un élément important pour permettre l’IA sans perdre le contrôle. Elles permettent une délégation précise aux agents d’IA sans risque de surexposition aux opérations sensibles de l’application. Ces actions, puisqu’elles sont structurées et transparentes, deviennent des points d’intégration testables et vérifiables entre les applications d’entreprise et les systèmes d’IA.

Ce cadre ouvre également des possibilités d’analyse et d’optimisation comportementale. Comme chaque appel à une App Action est traçable, les équipes peuvent surveiller où et comment les interfaces d’IA déclenchent la logique métier. Cette visibilité devient très utile pour les fonctions de produit, de conformité et de sécurité.

Des outils visuels et des ressources pour les développeurs améliorent la personnalisation et la performance des modèles d’IA.

Les équipes de développement n’ont plus besoin de s’appuyer sur des modèles d’IA prêts à l’emploi ou de dépenser beaucoup pour des cycles de réglage dans le cloud. Microsoft offre aux développeurs des options locales pour personnaliser les modèles avec des outils tels que l’AI Toolkit dans Visual Studio Code. Ces ressources sont conçues pour aider les développeurs à affiner les modèles intégrés, en particulier Phi Silica, en utilisant des méthodes efficaces comme LoRA (low-rank adaptation), qui modifie un modèle de base avec des données spécifiques à un domaine.

Ce qui est important, c’est que l’on passe d’un modèle générique à des réponses ciblées et adaptées à l’entreprise. Avec les adaptateurs LoRA, vous affinez le modèle en fonction du contexte spécifique de votre entreprise ou de votre produit. Cela permet d’éliminer les conjectures inutiles lors de l’exécution du modèle et de réduire le risque d’hallucinations, ces compléments fabriqués ou non pertinents qui sapent la confiance dans les systèmes d’IA.

Microsoft a également facilité l « évaluation rapide de ces adaptateurs grâce à sa galerie AI Dev, une application disponible sur le Windows Store. Les développeurs peuvent télécharger des adaptateurs fonctionnels, les tester sur des données et envoyer des mises à jour à des modèles prêts pour l’inférence, le tout sur le même appareil. Pas de files d’attente dans le cloud, d » étranglement de l’API ou de frais supplémentaires.

Pour les chefs d’entreprise, cette capacité est synonyme de flexibilité et de contrôle. Vous n’attendez plus que des équipes centralisées déploient des modèles personnalisés. Des équipes plus petites et distribuées, sur le produit, les opérations ou le CX, peuvent déployer des modèles locaux avec une grande confiance dans la fiabilité des résultats. Vous constatez immédiatement l’impact sur la rapidité, l’alignement des données et les coûts.

Et comme l’ajustement des modèles se fait dans des environnements de développement fiables tels que Visual Studio Code, il n’y a pas de rupture dans les flux de travail ni de besoin de plateformes externes. Cela réduit les obstacles à l’adoption par les équipes internes tout en s’alignant sur les pipelines de conformité et de déploiement existants. Pour les organisations modernes de produits et d’ingénierie, il s’agit là d’un véritable facteur d’efficacité.

Microsoft prépare l’avenir de l’écosystème Windows AI

Microsoft supprime les contraintes matérielles traditionnelles du développement de l’IA sur Windows. Windows AI Foundry est conçu pour fonctionner sur plusieurs architectures de microprocesseurs, x64, Arm, GPU et NPU, sans obliger les développeurs à réécrire ou recompiler pour différents appareils. Cette stratégie d’agnosticité matérielle permet à une application unique de s’adapter à tous les appareils, des ordinateurs portables d’entrée de gamme aux appareils de pointe accélérés par l’IA.

Windows ML et Foundry Local travaillent ensemble pour abstraire les différences d’exécution matérielle. Que votre terminal utilise une configuration CPU uniquement ou une NPU dédiée, la plateforme sélectionne la couche d’exécution appropriée, télécharge le runtime ONNX correspondant et l’optimise à la volée. Pour les développeurs, cela garantit la cohérence et le réglage des performances sans ingénierie personnalisée pour chaque classe de microprocesseurs ou d’appareils.

L’alignement des coûts est également significatif. Les appareils tels que la nouvelle gamme Surface sont équipés de puces NPU de Qualcomm et sont proposés à partir de 799 dollars. Ce prix permet d’intégrer des capacités d’IA avancées dans un ensemble beaucoup plus large d’appareils, faisant de l’inférence locale une capacité grand public presque du jour au lendemain. Parallèlement, le matériel PC Copilot+ doit prendre en charge 40 billions d’opérations par seconde (TOPS) dans les accélérateurs d’IA, ce qui garantit que la plateforme est toujours positionnée pour les applications à haute performance en cas de besoin.

Cette architecture stratégique est importante pour les décideurs car elle stabilise la courbe d’investissement dans l’infrastructure d’IA. Vous déployez les applications une seule fois, sans les recréer pour diverses configurations ou versions futures. Vous disposez d’une pile de développement qui évolue avec votre feuille de route matérielle, ce qui permet à vos équipes de se concentrer sur l’itération des produits et non sur la maintenance de la compatibilité.

Et grâce à l’optimisation par Microsoft de son propre catalogue de modèles pour cet environnement, les entreprises n’ont pas besoin de partir de zéro. Que vous utilisiez les modèles Phi de Microsoft ou des bibliothèques ouvertes comme Hugging Face ou Ollama, vous travaillez avec des lignes de base adaptées qui réduisent les frictions liées à l’intégration et améliorent le temps de retour sur investissement.

La stratégie Windows AI de Microsoft renforce son héritage

Microsoft revient à sa force fondatrice, à savoir la plateforme logicielle sur laquelle les entreprises peuvent s’appuyer. L’introduction de Windows AI Foundry étend le système d’exploitation au-delà des fonctionnalités traditionnelles. Il sert désormais d’environnement complet pour le développement d’applications d’IA, le déploiement de modèles, l’intégration au niveau du système et l’orchestration sécurisée des flux de travail.

Ce qui rend ce projet unique, c’est la portée de Microsoft. Les fonctionnalités ne sont pas conçues de manière isolée. Foundry Local, Windows ML, App Actions et Model Context Protocol sont conçus pour fonctionner ensemble. Ils offrent une expérience unifiée de l’IA sur le même système d’exploitation de bureau que celui utilisé par la plupart des entreprises modernes. Windows n’est donc pas seulement compatible avec l’IA, il est aussi conçu pour elle.

L’inclusion par Microsoft de modèles open-source, d’outils de réglage locaux, d’API compatibles REST et d’architectures sécurisées pour les applications témoigne d’une intention stratégique claire. L’entreprise crée un modèle d’exploitation de l’IA cohérent et contrôlé, où l’innovation se produit localement, en donnant la priorité à la performance, à la confidentialité et à la rentabilité.

Pour l’entreprise, cela réduit la dépendance à l’égard d’écosystèmes fragmentés. Vous n’évoluez pas avec un patchwork d’outils. Vous construisez sur une plateforme qui intègre la sécurité, la performance et le contrôle du flux de travail tout en restant ouverte aux modèles et normes externes. Cela correspond visiblement à la manière dont les logiciels modernes sont construits, déployés et gérés.

Investir dans la plateforme Windows AI, c’est s’assurer d’être prêt pour le prochain cycle de demandes d’applications intelligentes. Elle donne aux équipes les outils nécessaires pour livrer plus rapidement des produits d’IA tout en conservant le contrôle des données, de l’expérience et de la conformité. Et pour les organisations qui parient à long terme sur l’IA, à travers les applications, les services et l’infrastructure, il est important d’avoir cette cohérence au niveau de la plateforme.

Le bilan

Microsoft n’expérimente pas l’IA sur Windows, elle met en place une infrastructure. L’abandon des modèles basés uniquement sur le cloud au profit d’un déploiement local n’est pas qu’un simple progrès technique. C’est le signe que l’IA devient une attente fondamentale au niveau du système d’exploitation, et non une valeur ajoutée. Avec Windows AI Foundry, l’entreprise fournit une plateforme rapide, sécurisée, rentable et prête pour l’entreprise par défaut.

Pour les chefs d’entreprise, cela signifie que l’intégration de l’IA peut se faire sans avoir à naviguer dans un écosystème d’outils fragmenté. Que vous construisiez des flux de travail personnalisés, que vous amélioriez des outils internes ou que vous déployiez des fonctionnalités intelligentes sur un parc d’appareils, cette plateforme les prend en charge. Et elle le fait de manière stable, agnostique sur le plan matériel et compatible avec le futur.

L’avantage n’est pas seulement technique, il est aussi opérationnel. Des cycles de déploiement plus rapides, un contrôle plus étroit des données, un comportement contrôlable du modèle et une dépendance réduite au cloud pour l’inférence. Il ne s’agit pas de petites victoires. Elles redéfinissent les attentes en matière d’échelle et de gouvernance des logiciels alimentés par l’IA.

La fenêtre de temps pour adopter une telle infrastructure avant que vos concurrents ne le fassent est étroite. Les outils sont là. Ils fonctionnent. Et ils sont intégrés dans une plateforme que vos équipes utilisent déjà.

Alexander Procter

juin 20, 2025

18 Min