Les charges de travail liées à l’IA favorisent le passage au calcul spécialisé
Pendant des décennies, nous avons augmenté la capacité de calcul en ajoutant du matériel générique de base. Cette approche a fonctionné parce que les tâches étaient essentiellement générales et ne nécessitaient pas d’optimisation approfondie. Vous pouviez ajouter des processeurs au problème et les choses s’adaptaient très bien. Ce modèle atteint ses limites avec l’IA, non pas parce que nous ne pouvons pas continuer à ajouter du matériel, mais parce que les exigences de l’IA sont fondamentalement différentes.
Les charges de travail de l’IA sont intenses. La formation de grands modèles implique l’exécution de billions de calculs sur d’énormes ensembles de données. Vous ne pouvez pas vous contenter d’utiliser des unités centrales polyvalentes pour obtenir des résultats. Vous avez besoin d’unités de calcul conçues dès le départ pour ces charges de travail. C’est là qu’interviennent les accélérateurs tels que les GPU, les TPU et les ASIC. Ils offrent beaucoup plus de performances par watt et par dollar parce qu’ils sont adaptés à ce type d’opérations, aux multiplications de matrices, au traitement vectoriel et au parallélisme massif.
Il s’agit désormais d’optimisation verticale. Nous concevons le silicium pour l’IA à haute efficacité. Les entreprises qui s’y emploient déjà constatent de réels avantages en termes d’économie et de performances. Les autres suivront ou se laisseront distancer. Si vous exécutez des modèles d’inférence ou d’apprentissage à grande échelle et que vous dépendez encore fortement des CPU, vous consommez beaucoup d’électricité et de capital pour un résultat médiocre.
Ce changement indique également que les cycles traditionnels de rafraîchissement du matériel ne peuvent pas suivre. Nous aurons besoin d’itérations plus rapides, de relations plus étroites avec les fournisseurs de matériel et, dans de nombreux cas, de capacités d’ingénierie internes pour maximiser les performances de ces processeurs spécialisés. Pour tous ceux qui construisent une infrastructure de données au cours de cette décennie, ce changement devrait être au centre de la feuille de route stratégique.
Les interconnexions spécialisées remplacent les réseaux traditionnels
Parlons de la mise en réseau. Vous ne pouvez pas faire fonctionner l’IA à haute performance si vos unités de calcul ne peuvent pas communiquer entre elles assez rapidement. Les centres de données traditionnels ont été construits autour des réseaux Ethernet et TCP/IP, qui sont parfaits pour le trafic général, mais qui s’effondrent lorsque vous poussez des données à l’échelle du térabit sur des milliers de microprocesseurs, en permanence.
Les charges de travail de l’IA sont fortement interconnectées. Elles ne se contentent pas de diviser les tâches et de les exécuter indépendamment. Elles se synchronisent, échangent des poids et des gradients en temps réel et s’appuient sur une latence proche de zéro. Cela nécessite des communications directes à large bande passante, ce pour quoi Ethernet n’a tout simplement pas été conçu.
C’est pourquoi les interconnexions spécialisées, comme celles de NVIDIA NVLink de NVIDIA pour les GPU ou l’ICI de Google pour les TPU, deviennent essentiels. Il ne s’agit pas simplement de câbles plus rapides. Ils utilisent des protocoles et du matériel dédiés pour l’accès direct à la mémoire entre les unités de calcul. Ces interconnexions réduisent les frais généraux et ramènent le temps de latence des communications à quelques nanosecondes. C’est presque la vitesse d’accès à la mémoire locale, ce qui est essentiel pour les charges de travail synchronisées.
Si vous faites passer une formation à l’échelle de milliers de TPU ou de GPU, vous n’obtiendrez pas une efficacité acceptable sans ces systèmes. Les anciennes piles en couches introduisent trop de retard. Chaque nanoseconde compte. Chaque watt excédentaire s’additionne. Les interconnexions spécialisées donnent la priorité à l’efficacité énergétique et au mouvement des données à faible retard, ce qui se traduit directement par une formation plus rapide, un coût plus faible et une meilleure convergence des modèles.
Ainsi, lorsque vous construisez une infrastructure pour l’IA moderne, pensez d’abord au réseau. C’est ce qui rend l’ensemble du système évolutif ou défectueux. La plupart des inefficacités en termes de coûts et des goulets d’étranglement dans la formation à l’IA aujourd’hui ne sont pas dus au calcul, mais à la communication, ce qui signifie que les dirigeants qui ne tiennent pas compte de cet aspect sont confrontés à des systèmes non évolutifs et à des budgets explosifs. Il est temps d’aller au-delà de la mise en réseau polyvalente. Le matériel a évolué. Votre infrastructure devrait également évoluer.
L’IA exacerbe le problème du « mur de la mémoire ».
Le point de défaillance des performances des systèmes d’intelligence artificielle ne se situe généralement pas au niveau du processeur, mais au niveau de l’interface de la mémoire. La capacité de calcul a considérablement augmenté au fil des ans, grâce à de meilleures architectures, des microprocesseurs plus grands et du silicium plus intelligent. Mais la largeur de bande de la mémoire n’a pas suivi. Il s’agit d’une contrainte essentielle, car quelle que soit la rapidité de votre processeur, s’il attend des données, il est inactif.
Les charges de travail d’IA sollicitent la mémoire plus que la plupart des applications ne l’ont jamais fait. Vous passez des volumes massifs de données structurées, non structurées et à haute dimension à travers des modèles dont la taille et le nombre de paramètres augmentent chaque année. Les canaux de mémoire standard ne peuvent pas fournir ce type de bande passante. C’est pourquoi la mémoire à large bande passante (HBM) est devenue un point central. Elle rapproche la DRAM du processeur et l’empile de manière à réduire la latence et à augmenter le débit d’un facteur significatif pour les cycles d’apprentissage et d’inférence de l’IA.
Même avec HBM, nous repoussons les limites physiques et thermiques. Les données ne peuvent se déplacer qu’à une certaine vitesse le long du bord du microprocesseur, ce qui limite le débit total. Il y a aussi le coût et l’empreinte énergétique du transfert de ces données à des vitesses extrêmement élevées.
Pour y remédier, il faut repenser l’architecture de la mémoire et du traitement. La mémoire doit faire partie intégrante de la conception de l’ordinateur, et non pas être une réflexion après coup. Cela signifie une co-conception matérielle entre les processeurs et la mémoire, un préchargement prédictif des données, une orchestration plus intelligente au niveau du système et, éventuellement, une fusion des couches de stockage et de mémoire d’une manière qui n’a pas encore été réalisée à grande échelle.
Si vous menez actuellement une stratégie d’infrastructure, faites de l’architecture de la mémoire une priorité de premier ordre. Ne la considérez pas comme un problème qui sera résolu plus tard. Si le calcul se bloque en attendant la mémoire, vous gaspillez des ressources, de l’énergie et du temps de formation critique, ce qui peut être évité si vous construisez pour la bande passante dès le premier jour.
Une infrastructure informatique synchronisée à haute densité est essentielle
Les modèles d’apprentissage automatique avancés ne peuvent pas être mis à l’échelle si le matériel de soutien n’est pas étroitement aligné. Avec les charges de travail à grande échelle actuelles, vous exécutez des opérations hautement synchronisées sur des milliers, voire des dizaines de milliers, d’unités de calcul identiques qui doivent rester en phase, souvent avec des tolérances de l’ordre de la microseconde.
Ce niveau de coordination ne fonctionne pas dans les racks traditionnels, peu intégrés. Il nécessite des configurations à haute densité avec une distance physique minimale entre les processeurs. Plus le silicium est proche, physiquement et en termes d’infrastructure partagée, moins la latence et la pénalité énergétique sont importantes lors de la synchronisation. Les retards, même mineurs, désynchronisent le travail et peuvent compromettre les résultats du cycle de formation.
L’hétérogénéité est également un problème. Le mélange de différentes générations ou types de matériel réduit la vitesse des processus synchronisés au composant le plus lent. C’est pourquoi la cohérence générationnelle est nécessaire. Même si des microprocesseurs plus récents sont disponibles, le fait de les mélanger avec des plus anciens crée des inefficacités. Les configurations leader-suiveur ne résolvent pas ce problème lorsque vous effectuez des milliers d’opérations par seconde sur des cœurs étroitement couplés.
Les dirigeants doivent envisager cette question sous l’angle de la planification. Les systèmes d’IA à haute densité nécessitent une planification spécifique de l’alimentation, de la thermique et de l’espace. Le refroidissement liquide, l’approvisionnement cohérent en microprocesseurs et la disposition physique prévisible sont désormais fondamentaux pour les performances. C’est là que les manuels de jeu des centres de données traditionnels s’effondrent.
Si vous voulez des calculs synchronisés à faible latence à grande échelle, et vous le ferez si l’IA est un pilier stratégique, vous devez concevoir votre architecture en conséquence. Sinon, votre meilleur scénario consiste à faire fonctionner des microprocesseurs haute performance à la moitié de leur potentiel. Dans le pire des cas ? Vous construisez une infrastructure qui ne peut pas s’adapter à la taille du modèle ou aux exigences de l’équipe. Quoi qu’il en soit, la perte de marge est réelle et le retard par rapport à la concurrence s’accroît.
Modèles évolutifs de tolérance aux pannes pour l’informatique de l’IA
Dans les systèmes informatiques traditionnels, la tolérance aux pannes reposait sur la redondance. Ajoutez des systèmes de rechange et prévoyez des pannes occasionnelles sans interruption notable. Cette approche s’effondre dans les infrastructures d’IA à grande échelle. L’apprentissage de l’IA implique une activité coordonnée continue sur des milliers de processeurs interconnectés. Si un seul nœud tombe en panne, l’ensemble de la tâche de formation peut s’arrêter ou nécessiter un redémarrage complet. À ce niveau de synchronisation, la propagation des pannes est rapide et gaspille beaucoup de cycles de calcul.
Le matériel d’IA est poussé au maximum de ses capacités, souvent près des limites thermiques et électriques. Cela augmente la probabilité de défaillance des composants. Le surprovisionnement de la redondance devient trop coûteux, à la fois en termes de coûts d’investissement et de capacité inutilisée. Vous ne pouvez pas vous contenter d’ajouter du matériel supplémentaire au problème ou de supposer que chaque défaillance est isolée.
C’est là que le modèle de reprise sur panne doit changer. Au lieu de s’appuyer sur une redondance froide, les environnements d’intelligence artificielle s’orientent vers des points de contrôle en temps réel. Vous sauvegardez l’état du système assez fréquemment pour rebondir rapidement sans redémarrer complètement. Ce point de contrôle doit toutefois être intégré à l’infrastructure. La sauvegarde et le redémarrage rapides doivent être à faible latence et économes en énergie. Il doit fonctionner en étroite coordination avec le système de surveillance, qui doit détecter les anomalies ou les défaillances en quelques millisecondes.
Vous avez également besoin d’une réaffectation rapide des ressources informatiques. Les processeurs de réserve inactifs ne sont d’aucune utilité si vous ne pouvez pas les intégrer sans délai dans un travail actif. La structure, la couche d’orchestration, doit donc être conçue pour le réacheminement dynamique. Les systèmes doivent être en mesure d’isoler le matériel défectueux, de récupérer un point de contrôle et de reprendre la formation en temps réel sans perdre la cohérence du modèle.
Pour les chefs d’entreprise, la conclusion est simple : soit vous intégrez des mécanismes de détection et de récupération des pannes directement dans votre infrastructure d’IA, soit vous perdez constamment du temps, de l’énergie et de l’efficacité lorsque des pannes se produisent. Attendre des modèles de redondance hérités du passé vous ralentira et gonflera le coût par modèle formé.
L’électricité durable, une priorité essentielle en matière d’infrastructures
La puissance devient rapidement le facteur limitant de la mise à l’échelle du calcul de l’IA. Les performances par microprocesseurs augmentent, mais la consommation d’énergie aussi. Dans le même temps, les centres de données conçus pour être refroidis à l’air et dotés de systèmes de secours redondants à base de diesel ne peuvent pas évoluer efficacement, que ce soit d’un point de vue économique ou environnemental. L’inadéquation entre la demande croissante et la conception de l’infrastructure crée des contraintes qui ne permettent plus de soutenir la croissance à long terme.
L’état d’esprit doit passer de la performance des composants à la performance par watt au niveau du système. Cela signifie qu’il faut repenser le refroidissement, la distribution et la génération ensemble, et non pas séparément. Le refroidissement traditionnel par flux d’air ne suffit pas pour les clusters d’IA à haute densité. Nous nous intéressons désormais au refroidissement par liquide, à l’immersion et à d’autres approches qui réduisent la résistance thermique au niveau du système. La chaleur est une limite difficile à franchir. Vous devez la gérer ou vous devez sous-cadencer et sous-performer.
Ce qui est tout aussi important, c’est la manière dont l’énergie est fournie. Les alimentations redondantes, les générateurs diesel et les systèmes d’alimentation de secours coûteux créent des ancrages de coûts pour seulement quelques heures d’utilisation par an. Nous avons besoin d’architectures électriques plus intelligentes qui relient dynamiquement la charge de calcul à la demande active. L’utilisation de commandes de micro-réseaux en temps réel et de diverses sources d’énergie élimine ce goulot d’étranglement. Cela permet également une plus grande flexibilité géographique. Vous pouvez programmer les charges de travail d’IA en fonction de la disponibilité de l’énergie en temps réel, en arrêtant les tâches non essentielles lorsque le réseau est sous pression ou en réduisant sélectivement les performances lorsque cela est tolérable.
Les organisations qui investissent dans des systèmes énergétiques flexibles et optimisés pour l’IA constatent déjà une réduction des dépenses d’exploitation et des taux d’utilisation plus élevés.
Du point de vue du leadership, l’intégration de la durabilité et de l’intelligence énergétique dans la stratégie d’IA signifie débloquer l’échelle et réduire le coût total de possession. Les entreprises qui traitent l’énergie comme un pilier commun à l’informatique, au réseau et aux opérations fonctionneront plus rapidement, plus efficacement et avec un alignement plus étroit sur les futurs environnements réglementaires et économiques.
Intégrer la sécurité et la protection de la vie privée dans l’infrastructure de l’IA
La sécurité n’évolue pas lorsqu’elle est ajoutée après coup. Cela est d’autant plus vrai que nous entrons dans l’infrastructure de l’IA à l’échelle mondiale. La surface de vulnérabilité augmente de manière exponentielle avec des systèmes plus interconnectés, des ensembles de données plus importants et des ressources informatiques décentralisées. Parallèlement, les menaces évoluent. L’IA n’aide pas seulement les défenseurs. Elle améliore également la situation des attaquants, en automatisant leur capacité à trouver et à exploiter les faiblesses des systèmes rapidement et à grande échelle.
Cela signifie que la sécurité et la confidentialité doivent être intégrées dans les systèmes d’IA au niveau central, du matériel à l’orchestration en passant par le mouvement des données. Le chiffrement de bout en bout n’est pas facultatif. Il doit s’agir d’une option par défaut. Les frontières matérielles qui isolent les processus sensibles deviennent essentielles, en particulier pour les charges de travail propriétaires où les risques liés à la propriété intellectuelle ont un impact commercial direct.
Le suivi des données sera également un élément essentiel de l’infrastructure. Lors de la formation des modèles, il doit être possible de vérifier les schémas d’accès, de valider l’origine des données et de confirmer la façon dont elles ont été traitées dans le système. Cela inclut l’auditabilité en temps réel pour les pétabits de télémétrie, ainsi que la détection des anomalies pour identifier les menaces internes de manière proactive.
Pour les dirigeants, cela change la façon dont les investissements dans l’infrastructure sont évalués. Les systèmes les plus rapides qui rognent sur la sécurité peuvent compromettre des années de R&D ou éroder sérieusement la confiance des clients. L’infrastructure d’IA moderne n’est pas seulement une décision de calcul ou de coût, c’est une décision de confiance. Pour instaurer cette confiance, il faut intégrer la sécurité à tous les niveaux.
Le maintien du contrôle des données, du contexte et de l’accès fait désormais partie intégrante de la mise à l’échelle de l’IA en toute confiance, et permet aux entreprises de répondre à la fois aux exigences réglementaires et aux normes internes sans ralentir le déploiement. Éviter les compromis au niveau fondamental est bien moins coûteux et bien plus efficace que de bloquer les brèches après coup.
La rapidité de déploiement du matériel est désormais un impératif stratégique
Les cycles d’innovation en matière d’IA ne ralentissent pas. Les améliorations matérielles, notamment des microprocesseurs plus puissants, une intégration plus étroite de la mémoire et de meilleures interconnexions, permettent de multiplier les gains de performance d’une année sur l’autre. Mais ces avantages n’ont d’importance que si les entreprises peuvent déployer des systèmes suffisamment rapidement pour en exploiter toute la valeur. La méthode traditionnelle consistant à mettre à niveau les baies progressivement sur plusieurs trimestres ne fonctionne plus. Le temps que le déploiement s’achève, la nouvelle génération est déjà prête et probablement plus efficace par watt et par dollar.
Pour conserver une position de leader dans le domaine de l’IA, l’infrastructure doit être déployée sous forme de systèmes complets et homogènes. Les déploiements fragmentés limitent les optimisations des compilateurs, retardent le débit d’entraînement et réduisent la capacité à mettre à l’échelle les modèles de manière efficace. La cohérence générationnelle entre des milliers d’unités est nécessaire d’un point de vue opérationnel et économique.
Pour ce faire, il faut traiter le déploiement de l’infrastructure d’IA comme un pipeline de fabrication. Cela signifie qu’il faut comprimer les délais entre la spécification et le déploiement complet, automatiser l’approvisionnement et les tests, et aligner étroitement les piles logicielles sur les capacités matérielles. Les environnements de programmation, les compilateurs et les architectures de modèles doivent être réglés à l’avance. Un déploiement rapide se transforme en une itération rapide. Et l’itération rapide renforce l’élan.
Les équipes qui font de leurs capacités de déploiement une compétence de base, couvrant l’approvisionnement en matériel, l’intégration, l’automatisation et l’optimisation, sont les mêmes équipes qui mettront à l’échelle les systèmes d’IA les plus impactants avec cohérence. Cela demande de l’engagement et du capital, mais les bénéfices se font sentir en termes d’agilité, de préparation et de compétitivité à long terme.
La réorganisation totale de l’infrastructure informatique est essentielle pour l’IA
Les améliorations progressives de l’infrastructure existante ne suffiront pas à répondre à la demande. Les modèles deviennent exponentiellement plus grands. Les besoins en calcul se multiplient. L’ancienne approche consistant à adapter les systèmes existants pour prendre en charge de nouvelles charges de travail crée de l’inefficacité et de la dette technique. C’est pourquoi la prochaine génération d’IA a besoin d’une infrastructure sur mesure, conçue de bout en bout avec l’IA comme exigence centrale de conception.
Chaque couche doit s’aligner, des processeurs spécialisés optimisés pour l’IA aux interconnexions à large bande passante et à faible latence, en passant par les architectures de mémoire conçues pour déplacer et traiter les données à grande échelle. Les réseaux doivent permettre une communication rapide entre tous les utilisateurs. Les structures de refroidissement doivent gérer des charges thermiques concentrées. Les systèmes d’alimentation doivent être dynamiques et pilotés par des logiciels. La sécurité, la tolérance aux pannes et l’automatisation doivent être intégrées partout.
Ce type d’architecture ne naîtra pas d’efforts isolés. Il nécessite la collaboration de chercheurs, de développeurs de matériel, d’équipes logicielles, de fournisseurs d’infrastructures et d’ingénieurs en énergie. Le fossé entre l’infrastructure existante et les exigences de l’IA se creuse. Pour combler ce fossé, il faut réfléchir aux principes de base, identifier ce qui est fondamentalement nécessaire et construire rien de moins que ce que cette réalité exige.
Les cadres dirigeants devraient considérer cela comme un fondement stratégique de la compétitivité. Des secteurs comme la médecine, la finance, la fabrication et l’éducation seront remodelés par les capacités qui découlent de l’infrastructure de l’IA. La vitesse, la précision et l’efficacité à grande échelle proviendront d’une infrastructure qui a été réarchitecturée, et non réadaptée, pour cette tâche.
Les entreprises qui entament cette transformation dès le début et investissent avec clarté ne se contenteront pas de suivre, elles définiront le rythme et fixeront les critères de performance que les autres suivront. Attendre, c’est s’appuyer sur des systèmes qui ne sont pas conçus pour l’avenir. Agir, c’est construire les systèmes qui rendent l’avenir réalisable.
Le bilan
L’ère de l’IA teste déjà les limites de l’infrastructure conventionnelle et expose les inefficacités de la pensée traditionnelle. Ce qui a fonctionné dans le passé, à savoir le calcul polyvalent, les réseaux en couches et les plans de déploiement progressifs, ne supportera pas le poids des prochaines exigences de l’IA.
L’IA n’est pas un système ou un outil unique. C’est un multiplicateur de performance qui dépend de la capacité des systèmes sous-jacents à suivre le rythme. Le calcul, le réseau, la mémoire, la sécurité, l’énergie, aucun de ces éléments ne peut être optimisé de manière isolée. Ils doivent être construits ensemble, intentionnellement, pour l’échelle, la vitesse et la résilience.
En tant que décideur, vous donnez le ton quant à la vitesse à laquelle votre organisation peut évoluer. Attendre que les normes s’établissent ou que les technologies arrivent à maturité signifie prendre du retard lorsque le paysage évolue plus vite que la feuille de route. Faire des choix audacieux, ce n’est pas courir après la prochaine mise à jour, c’est concevoir une infrastructure qui offre un avantage durable.
Les entreprises qui seront à la pointe de l’IA seront celles qui ne se contenteront pas d’adopter de nouveaux outils, mais qui auront repensé leurs fondations. Le moment est venu de prendre une décision : construisez-vous sur ce qui va suivre ou vous appuyez-vous encore sur ce qui reste ?