Les nouvelles offres de stockage de Google Cloud dopent les performances de l’IA.

Google va vite. Ses derniers ajouts à la plateforme Cloud, Rapid Storage et Managed Lustre, sont conçus pour une chose : la performance. Et la performance n’est pas négociable lorsque vous entraînez des modèles d’apprentissage automatique ou que vous exécutez des applications d’IA en temps réel qui reposent sur le déplacement rapide et précis de volumes massifs de données.

Rapid Storage vise des opérations de lecture/écriture en dessous de la milliseconde en faisant quelque chose d « étonnamment simple : placer votre stockage juste à côté des GPU et des TPU dans la même zone du centre de données. C’est ainsi que vous éliminez la latence, en supprimant la distance. Il s’intègre également à Cloud Storage Fuse, un outil open source qui permet au stockage d’objets de se comporter comme un système de fichiers. C’est utile lorsque vos flux de travail dépendent d’un accès au niveau des fichiers, mais qu’ils ont besoin de l » échelle du stockage d’objets.

Managed Lustre, encore en avant-première, est le système de fichiers parallèle que Google a construit sur la technologie ExaScaler de DDN. Il est très évolutif. Pensez à l’informatique haute performance et aux formations à grande échelle qui ont besoin de transférer des données entre les nœuds sans ralentissement. Il se connecte à d’autres services du cloud de Google, ce qui lui permet de s’intégrer dans votre architecture existante.

Ce qui est important, c’est que Google ne se contente pas de rattraper la S3 Express One Zone d’AWS, il la bat sur des paramètres essentiels. AWS propose une latence de 2 à 10 millisecondes. Google revendique une latence inférieure à la milliseconde. C’est rapide. Ce qui rend cela possible, c’est la manière dont il est construit. Google a abandonné l’API REST au profit de gRPC, qui est une interface avec état. Il garde la trace de ce qui se passe au cours des opérations, au lieu de traiter chaque appel de données comme une requête aveugle. Cela signifie des performances plus intelligentes, en particulier pour l’IA, où la latence a un impact direct sur le temps et les coûts de formation.

Ray Lucchesi, fondateur et président de Silverton Consulting, a été très clair : « Je pensais qu’ils étaient en train de se mettre au diapason de S3 Express One Zone, [mais] cela va plus loin ». En d’autres termes, Google n’essaie pas d’égaler AWS, mais de faire un bond en avant.

Si vous vous intéressez à la vitesse de l’IA, et vous devriez le faire, commencez à regarder où les hyperscalers optimisent le stockage. Car il ne s’agit plus seulement de puissance de traitement. Il s’agit d’alimenter cette puissance assez rapidement pour que cela compte.

La volonté de dominer l’IA risque d’entraîner un verrouillage des fournisseurs

Les fournisseurs de cloud veulent devenir votre infrastructure d’intelligence artificielle. Ne pas vous louer du matériel. Ils ne vous proposent pas d’outils. Ils veulent posséder l’ensemble de la pile, du stockage des données à la formation des modèles, en passant par le déploiement. C’est la raison d’être de ces nouveaux services, et c’est ce qui fait de ce jeu un enjeu majeur.

Brent Ellis, de Forrester, l’a clairement expliqué : à mesure que le stockage devient plus intelligent, plus automatisé, plus intégré, plus « conscient des données », l’avantage est évident. Vous faites plus avec moins. Moins de pièces mobiles, de meilleures performances, moins de frais généraux. Mais il est de plus en plus difficile de partir. Chaque nouvelle capacité est pratique pour l’instant, mais elle pourrait vous coûter plus tard.

C’est là qu’un leadership intelligent est important. Si votre plan à long terme inclut une adoption sérieuse de l’IA, et cela devrait être le cas, vous devez prendre aujourd’hui des décisions qui détermineront votre flexibilité de demain. Une stratégie de cloud unique peut sembler plus simple sur le papier, mais elle vous enferme dans la feuille de route de ce fournisseur, ses prix, ses délais de performance.

Dans le meilleur des cas, cela fonctionne pendant quelques années. Dans le pire des cas, vous êtes pris au piège au moment où une meilleure option devient disponible, mais le coût du déménagement est injustifiable d’un point de vue opérationnel et financier.

Ce n’est pas de l’alarmisme. C’est une stratégie. Même si vos charges de travail se déroulent plus facilement aujourd’hui avec la pile d’IA de pile d’IA de Google de Google ou Bedrock d’Amazon, vous devez architecturer vos systèmes en gardant à l’esprit l’optionnalité. Rendez les services portables. Gardez vos formats de données ouverts. Concevez pour le changement, même si vous ne l’utilisez jamais.

L’informatique d’entreprise a déjà connu cette situation. La base d’installation massive de VMware est devenue un fardeau après l’acquisition de Broadcom ; beaucoup n’ont pas vu le verrouillage avant qu’il ne soit trop tard. Roy Illsley, analyste chez Omdia, résume bien la situation : « Vous n’êtes pas enfermé et vous pouvez passer d’un fournisseur à l’autre avec un peu d’effort. »

Si vous voulez vraiment faire preuve d’agilité, traitez le verrouillage des fournisseurs comme une dette technique. Tout va peut-être bien pour l’instant. Mais lorsque la plateforme changera, et elle changera, cela peut vous coûter cher. Investissez donc dans la flexibilité tant que vous avez encore le choix.

Commercialisation de la technologie colossale éprouvée de Google

Google ne part pas de zéro, sauf en cas de nécessité. Lorsqu’il construit quelque chose en interne qui fonctionne à l’échelle de milliards d’utilisateurs, il finit par trouver un moyen d’offrir cette capacité aux entreprises. C’est exactement ce qui se passe avec Rapid Storage. Il s’agit d’une version produite de Colossus, le système de fichiers distribués qui est à la base de presque tous les services de base de Google.

Colossus a été testé dans le cadre d’une demande mondiale massive. Aujourd’hui, il est commercialisé et les entreprises ont accès à l’un des systèmes de stockage les plus résilients et les plus performants qui soient. Rapid Storage offre des performances inférieures à la milliseconde en appliquant les mêmes principes que ceux utilisés par Google en interne, à savoir la colocalisation du calcul et du stockage, les pipelines de données à latence zéro et l’ingénierie empilée pour le débit.

Ce qui importe ici, c’est que Google n’expérimente pas le stockage rapide. Il expose une infrastructure éprouvée qui a pris en charge Search, Maps, YouTube et bien d’autres choses encore. Ce type de maturité réduit les risques de mise en œuvre pour les clients. Vous n’adoptez pas la première version d’un produit, vous obtenez le dérivé renforcé de systèmes qui ont déjà pris en charge des charges de travail de production à l’échelle de l’exaoctet.

La plupart des solutions de stockage disponibles aujourd’hui n’ont pas été conçues à l’origine pour l’IA. Elles ont été adaptées. Mais Colossus, aussi évolué soit-il, a toujours eu des exigences internes en matière de vitesse, de disponibilité globale et de performances constantes en lecture/écriture. Cela l’aligne naturellement sur les besoins des systèmes d’IA modernes. Et maintenant, il est disponible via une interface externe utilisant gRPC, en contournant le protocole REST plus limité, et entièrement intégré dans les services Google Cloud.

L’avantage technique est direct. Les entreprises qui cherchent à créer des systèmes d’IA de production ont accès à l’infrastructure qui a fait d’Alphabet ce qu’elle est. Cela a une valeur pratique : la mise à l « échelle est plus facile, la latence n’est plus un goulot d » étranglement et les ensembles de données de plusieurs pétaoctets deviennent gérables sans dépendances externes.

Managed Lustre améliore les environnements de formation au HPC et à l’IA

Le système de fichiers Lustre géré par Google Cloud en est un autre exemple. Il n’est pas destiné à tout le monde. Il est ciblé sur le calcul haute performance (HPC), la formation à l’IA, les charges de travail de simulation, le réglage de modèles à l’échelle. Ce sont des cas d’utilisation qui atteignent les limites du stockage de fichiers cloud standard. C’est pourquoi Google s’est associé à DDN, l’un des leaders en matière de performances dans ce domaine, pour proposer un produit spécialement conçu à cet effet.

La base technologique est importante. La plate-forme ExaScaler de DDN est entièrement intégrée ici. Elle a été optimisée pour les performances des systèmes de fichiers parallèles et conçue spécifiquement pour un accès aux fichiers à haut débit et à faible latence. La version de Google va encore plus loin en prenant en charge la couche de gestion, éliminant ainsi les frais généraux de maintenance et d’orchestration. Vous obtenez des performances brutes, contrôlées par une interface cloud-native simplifiée.

Ce service se connecte également facilement aux solutions d’IA plus larges de Google, notamment les environnements d’entraînement pour Vertex AI ou les GPU provisionnés dans Google Cloud. Cette flexibilité le rend pratique pour les entreprises qui étendent l’expérimentation de l’IA, tout en conservant un pipeline de stockage unifié. Vous n’avez pas besoin de repenser votre architecture pour tester de grands modèles ou distribuer l’entraînement sur des clusters.

Comparez cela avec ce que propose AWS, Amazon FSx pour Lustre. Il s’agit d’un produit solide et clairement compétitif. Mais Google cherche à renforcer la cohésion de son écosystème. Cela pourrait réduire la complexité de l’intégration, en particulier pour les organisations qui exécutent déjà des charges de travail d’IA sur la plateforme de Google ou celles qui sont profondément investies dans leurs TPU et leurs environnements de traitement de données à grande échelle.

Si vous investissez dans l’IA qui repousse les seuils de performance et que vos modèles reposent sur un entraînement itératif intensif, il ne s’agit pas d’une mise à niveau facultative. Il s’agit d’une décision d’infrastructure de base. Attendre trop longtemps pour moderniser votre architecture de stockage ne fait qu’augmenter les risques. Plus votre stockage est rapide, plus vos cycles de formation sont rapides. Cela se traduit directement par la rapidité de mise sur le marché, la réactivité du système et les délais de monétisation.

L’évolution des technologies de stockage est à l’origine de nouvelles architectures d’IA d’entreprise

Le stockage a évolué. Ce qui était autrefois une fonction d’arrière-plan est aujourd’hui un facteur déterminant pour les performances de l’IA. Le stockage objet, longtemps privilégié pour son évolutivité, est devenu une couche fondamentale pour les entreprises qui construisent des architectures d’IA. Non pas parce qu’il est nouveau, mais parce que c’est le seul type de stockage qui fonctionne efficacement à l’échelle du pétaoctet et de l’exaoctet sans défaillance.

L’approche de Google avec Rapid Storage et son portefeuille plus large reflète cette réalité. Comme l’a souligné Brent Ellis de Forrester, les primitives de stockage évoluent. Elles deviennent intelligentes et conscientes des données qu’elles contiennent. Il s’agit d’une spécification essentielle lorsque vous travaillez avec des systèmes d’intelligence artificielle qui ne se contentent pas de stocker des données, mais qui les interrogent, les manipulent, en tirent des enseignements et s’y entraînent en temps réel.

Les charges de travail d’IA modernes exigent des caractéristiques que les modèles de stockage traditionnels n’ont pas été conçus pour prendre en charge. Les seuils de performance augmentent. La tolérance à la latence diminue. Et les systèmes doivent gérer à la fois des données structurées et non structurées, souvent dans le même flux de travail. Cela nécessite un stockage qui brouille les frontières entre l’accès aux fichiers et aux objets, et qui offre l’intelligence nécessaire pour s’optimiser en fonction de l’utilisation, des métadonnées et des paramètres de concurrence.

Ray Lucchesi, président de Silverton Consulting, a souligné que le stockage d’objets s’étend déjà à des niveaux de l’ordre de l’exaoctet sans problème. Ce type de fiabilité, associé aux nouvelles améliorations de performance apportées par des outils tels que gRPC et la colocalisation native des GPU, redéfinit ce que l’on attend du stockage dans une pile d’IA moderne.

Pour les entreprises qui conçoivent leur infrastructure aujourd’hui, l’essentiel est de savoir que le stockage n’est plus passif. Il est actif. Il doit s’intégrer à l’informatique, être conscient des intentions de la charge de travail et prendre en charge l’élasticité et les performances sans compromis. Il ne s’agit pas d’une mise à jour des fonctionnalités, mais d’un changement fondamental de l’architecture. Et si votre feuille de route technologique inclut l’IA à grande échelle, cette couche doit être fondamentale, et non optionnelle.

La flexibilité stratégique est cruciale pour atténuer l’enfermement dans une plateforme d’IA

L’écosystème de l’IA n’est pas figé. Aucune entreprise ne le possède à elle seule. Si OpenAI a une longueur d’avance sur les modèles, aucune plateforme ne domine totalement les entreprises, qu’il s’agisse d’AWS Bedrock, de Vertex AI de Google ou des initiatives Azure OpenAI de Microsoft. Cela signifie que lorsque vous construisez aujourd’hui, vous avez encore la possibilité de contrôler votre architecture. Mais la fenêtre ne restera pas ouverte éternellement.

Roy Illsley, d’Omdia, l’a dit simplement : « L’application phare de l’IA n’a pas encore été développée… vous n “êtes pas bloqué et vous pouvez passer d’un fournisseur à l’autre avec un peu d’effort”. C’est un fait qui mérite d » être pris en compte.

La plupart des entreprises ne s’appuieront pas exclusivement sur les modèles de base. Elles construiront ou affineront des modèles plus petits, spécifiques à un domaine. Elles s’appuieront sur des solutions libres. Et elles se formeront localement, en utilisant le cloud privé, le matériel sur site ou le cloud public si nécessaire. Cette approche ne sera couronnée de succès que si votre pile technologique permet la transition et l’adaptation sans avoir à réarchitecturer à chaque fois que les besoins changent.

Brent Ellis, de Forrester, a fait remarquer que les grandes entreprises pensaient qu’elles contrôleraient l’IA d’entreprise par défaut. Ce n’est pas le cas. Les équipes d’entreprise prennent le contrôle, construisent leurs propres modèles, ajoutent de la flexibilité aux déploiements et exigent une compatibilité allant au-delà de l’écosystème d’un seul fournisseur.

Le risque est subtil mais réel : lorsque chaque outil utile de votre pipeline d’IA dépend du système propriétaire d’un fournisseur, les transitions futures deviennent coûteuses et perturbatrices. Même si vous êtes satisfait pour l’instant, dès que leur feuille de route diverge de la vôtre ou que leur modèle de tarification change, vous perdez de l’influence.

Pour les dirigeants de la suite, en particulier les directeurs techniques et les directeurs de l’information, la conclusion est simple. Construisez en gardant le contrôle à l’esprit. Utilisez des services qui offrent des performances et une facilité d’utilisation aujourd’hui, mais gardez votre architecture ouverte. La citoyenneté des fournisseurs doit être bénéfique et non obligatoire. C’est ainsi que vous resterez agile lorsque la prochaine génération de capacités d’IA sera en ligne.

Faits marquants

  • Google améliore l’infrastructure de l’IA : Les nouvelles offres Rapid Storage et Managed Lustre de Google Cloud offrent des performances plus rapides en matière d’IA, avec une latence inférieure à la milliseconde et des systèmes de fichiers optimisés pour le HPC, ce qui est essentiel pour les entreprises qui mettent à l’échelle les charges de travail d’IA.
  • Méfiez-vous de l’enfermement dans l’hyperscaler : À mesure que les fournisseurs de cloud intègrent des outils propriétaires plus intelligents, les dirigeants doivent trouver un équilibre entre les gains de performance à court terme et les risques de flexibilité à long terme en structurant les stratégies de cloud de manière à minimiser le verrouillage des fournisseurs.
  • Une infrastructure éprouvée désormais disponible : Rapid Storage commercialise le système de fichiers interne Colossus de Google, réduisant ainsi les risques pour l’entreprise et offrant une infrastructure renforcée à grande échelle qui a déjà fait l’objet de tests de résistance dans l’ensemble des services Google.
  • Performance conçue pour HPC et ML : Google Cloud Managed Lustre, construit sur ExaScaler de DDN, fournit un système de fichiers parallèles géré pour les cas d’utilisation à forte intensité de calcul ; idéal pour les organisations qui exécutent des simulations à grande échelle ou des pipelines d’entraînement de modèles.
  • Le stockage intelligent redéfinit l’architecture : L’IA exige davantage du stockage, les systèmes d’objets doivent désormais prendre en charge un débit élevé et la prise en compte de la charge de travail. Les dirigeants doivent considérer le stockage comme une couche de conception centrale, et non comme un service passif de backend.
  • Concevoir pour la mobilité des plateformes : Le paysage de l’IA étant toujours en mouvement, les décideurs devraient privilégier les architectures agnostiques au cloud et se préparer à un déploiement inter-environnements afin de garder le contrôle et de réduire les coûts de commutation futurs.

Alexander Procter

juin 6, 2025

15 Min