EuroWire , SAN FRANCISCO : Microsoft a présenté le 26 janvier Maia 200, la deuxième génération de son accélérateur d’intelligence artificielle interne, conçu pour exécuter des modèles d’IA en production sur les centres de données Azure. L’entreprise a précisé que Maia 200 est dédié à l’inférence, l’étape où les modèles entraînés génèrent des réponses aux requêtes en temps réel, et sera utilisé pour prendre en charge divers services d’IA de Microsoft.

La puce Maia 200 est fabriquée selon le procédé 3 nanomètres de TSMC et intègre plus de 140 milliards de transistors, a indiqué Microsoft . Elle est associée à un nouveau système de mémoire comprenant 216 gigaoctets de mémoire HBM3e à large bande passante et environ 272 mégaoctets de SRAM intégrée, conçu pour supporter la génération de jetons à grande échelle et d'autres charges de travail nécessitant d'importantes inférences.
Microsoft a annoncé que le Maia 200 offre une puissance de calcul supérieure à 10 pétaflops avec une précision de 4 bits et d'environ 5 pétaflops avec une précision de 8 bits, des formats couramment utilisés pour exécuter efficacement les intelligences artificielles génératives modernes. L'entreprise a également précisé que le système est conçu pour une consommation énergétique de 750 watts et intègre une architecture réseau évolutive permettant de connecter plusieurs puces pour des déploiements à plus grande échelle.
L'entreprise a annoncé que le nouveau matériel a commencé à être mis en service dans un centre de données Azure US Central situé dans l'Iowa, et qu'un autre site est prévu en Arizona. Microsoft a décrit Maia 200 comme son système d'inférence le plus performant déployé à ce jour, faisant état d'une amélioration de 30 % du rapport performance/prix par rapport à ses systèmes d'inférence existants.
L'inférence IA au cœur du déploiement Azure
Microsoft a déclaré que Maia 200 est conçu pour prendre en charge les produits et services d'IA qui reposent sur l'exécution de modèles à haut volume et à faible latence, notamment les charges de travail exécutées sur Azure et les applications Microsoft. L'entreprise a précisé avoir conçu la puce et le système associé dans le cadre d'une approche d'infrastructure globale incluant le silicium, les serveurs, le réseau et les logiciels pour le déploiement à grande échelle de modèles d'IA.
Parallèlement à la puce, Microsoft a annoncé un accès anticipé à un kit de développement logiciel Maia destiné aux développeurs et chercheurs travaillant sur l'optimisation de modèles. L'entreprise a précisé que cet outil vise à aider les équipes à compiler et à optimiser des modèles pour les systèmes basés sur Maia, et qu'il est conçu pour s'intégrer aux flux de travail de développement d'IA courants utilisés pour le déploiement de l'inférence dans le cloud.
Performances annoncées et assistance modèle
Microsoft a déclaré que Maia 200 est conçu pour exécuter des modèles de langage complexes et des systèmes de raisonnement avancés, et qu'il sera utilisé pour les déploiements de modèles internes et hébergés sur Azure. L'entreprise positionne cette puce comme un accélérateur d'inférence en production, la distinguant ainsi des systèmes axés sur l'entraînement, généralement utilisés pour construire les modèles avant leur déploiement.
Microsoft a accéléré le développement de puces sur mesure face à la demande croissante de puissance de calcul pour les applications d'IA générative, où les coûts et la disponibilité des accélérateurs ont un impact direct sur la vitesse de déploiement des services. Le Maia 200 succède au Maia 100, lancé par Microsoft en 2023, et représente la dernière évolution de sa gamme d'accélérateurs d'IA dédiés à l'inférence dans les centres de données.
L’article « Microsoft dévoile l’accélérateur Maia 200 conçu pour l’inférence de modèles d’IA » est paru initialement sur British Pioneer .
