La latence mesure le temps d’inférence nécessaire pour traiter une seule entrée si l’inférence est synchrone.
Lors de l’exécution d’OpenVINO™ Banc d’essai avec des paramètres par défaut, elle est inférence en mode asynchrone. Par conséquent, la latence résultante mesure le temps d’inférence total nécessaire pour traiter le nombre de demandes d’inférence.
En outre, lors de l’exécution de Benchmark App sur un processeur avec des paramètres par défaut, 4 demandes d’inférence sont créées alors que 16 demandes d’inférence sont créées si l’application de banc d’essai est exécutée sur un GPU avec des paramètres par défaut. Par conséquent, la latence résultante de l’inférence sur le GPU est plus élevée que sur le processeur.
Spécifiez le même nombre de demandes d’inférence lors de l’exécution de Benchmark App sur une CPU et une GPU pour une comparaison équitable :
benchmark_app.exe -m model.xml -d CPU -nireq 4
benchmark_app.exe -m model.xml -d CPU -nireq 4