Pourquoi choisir le modèle FP16 pour la compression de poids en utilisant Optimum Intel / Neural Network Compression Framework (NNCF) ?
Type de contenu: Dépannage | ID de l'article: 000098174 | Dernière révision: 21/03/2024
Impossible de déterminer la raison du choix du modèle FP16 en compression de poids à l’aide d’Optimum Intel / NNCF.
La demi-précision FP16, qui réduit de moitié la taille du modèle par rapport à la précision FP32, peut obtenir un résultat d’inférence presque identique tout en utilisant la moitié des ressources GPU.