Opération de quantification dans OpenVINO™ kit d’outils.
- Modèle ONNX quantisé au format de précision FP32.
- Exécutez la fonction compress_model_weights pour réduire la taille du fichier bin après avoir effectué une quantification post-apprentissage.
- A compilé le modèle et a remarqué que la sortie du modèle est en FP32 au lieu d’INT8.
Au cours de la quantification, seules les opérations nécessaires en vue des performances ont été quantisées. Les autres opérations resteront en FP32 dans la sortie.
Reportez-vous à OpenVINO™ Transformation de faible précision.