Compromis sur l’utilisation de différentes données et formats de poids
- Générer deux fichiers IR (fichier .xml identique mais fichiers .bin différents)
- Un modèle similaire avec des poids différents s’exécutent à des fps différents (27 ips et 6 ips)
- Les poids les plus divers affectent-ils les performances d’inférence sur Myriad X ?
Le poids et la précision du modèle (FP32, FP16, INT8) affectent les performances d’inférence.
L’utilisation du format FP32 entraînerait une distribution complète du poids et est appelée un point flottant de précision unique.
Pendant ce temps, les formats FP16 et INT8 sont tous les deux des formats de poids compressés où ils sont pressés pour être de plus petite taille. L’compromis de ces compressions est la précision du modèle ou également appelé erreur de quantification.
Plus le nombre de bits alloués pour représenter les données est important, plus ils peuvent représenter et potentiellement, plus le modèle est précis. Cependant, des données plus volumineuses nécessitent un plus grand espace mémoire pour son stockage, une bande passante mémoire plus élevée nécessaire pour le transférer, ainsi que des ressources de calcul et une plus grande durée d’utilisation.
Les résultats des bancs d’essai Distribution Intel® du kit d'outils OpenVINO™ illustrent des différences évidentes en termes de performances entre différents formats de poids ou de précision.