Nouvelles fonctionnalités CUDA 11.4 révélées par NVIDIA

NVIDIA CUDA

NVIDIA a dévoilé aujourd’hui les fonctionnalités incluses dans sa version de NVIDIA CUDA 11.4, qui comprend Bibliothèques accélérées par GPU, des outils de débogage et d’optimisation, des améliorations du langage de programmation et une bibliothèque d’exécution. La nouvelle bibliothèque d’exécution a été créée pour aider les développeurs à construire et à déployer leurs applications sur des GPU à travers les principales architectures de CPU : x86, Arm et POWER, explique NVIDIA.

La dernière version de CUDA 11.4 est livrée avec le pilote R470, une branche de support à long terme et se concentre sur l’amélioration du modèle de programmation et des performances de vos applications CUDA. « CUDA continue de repousser les limites de l’accélération GPU et de jeter les bases de nouvelles applications dans les domaines du HPC, des graphiques, des applications CAE, de l’IA et de l’apprentissage en profondeur, de l’automobile, de la santé et des sciences des données. »

« Cette version a introduit des améliorations clés pour améliorer les performances de NVIDIA CUDA Graphs sans nécessiter aucune modification de l’application ou toute autre intervention de l’utilisateur. Il améliore également la facilité d’utilisation du service multi-processus (MPS). Nous avons formalisé le modèle de programmation asynchrone dans le Guide de programmation CUDA. Les graphiques CUDA sont idéaux pour les charges de travail qui sont exécutées plusieurs fois, donc un compromis clé dans le choix des graphiques pour une charge de travail est d’amortir le coût de création d’un graphique sur des lancements répétés. Plus le nombre de répétitions ou d’itérations est élevé, plus l’amélioration des performances est importante.

« La réduction de la latence de lancement des graphiques est une demande courante de la communauté des développeurs, en particulier dans les applications qui ont des contraintes en temps réel, telles que les charges de travail de télécommunications 5G ou les charges de travail d’inférence d’IA. CUDA 11.4 améliore les performances en réduisant les temps de lancement des graphiques CUDA. De plus, nous avons également intégré la fonctionnalité d’allocation de mémoire ordonnée par flux qui a été introduite dans CUDA 11.2.

« Dans NVIDIA CUDA 11.4, nous avons apporté quelques modifications clés aux éléments internes du graphique CUDA qui améliorent encore les performances de lancement. Les graphiques CUDA contournent déjà les flux pour permettre une exécution à plus faible latence. Nous avons étendu cela pour contourner les flux même lors de la phase de lancement, en soumettant un graphique en tant que bloc de travail unique directement au matériel. Nous avons constaté de bons gains de performances grâce à ces améliorations de l’hôte, à la fois pour les applications monothread et multithread.

La source : NVIDIA

Certains de nos articles incluent des liens d’affiliation. Si vous achetez quelque chose via l’un de ces liens, lilypop peut gagner une commission d’affiliation. .

Derniers articles

Nouvelles fonctionnalités CUDA 11.4 révélées par NVIDIA

Sur le même sujet

Derniers articles

Les plus consultés