Ping An : la technologie de sécurité réduit les silos de données

Avec Intel® Software Guard Extensions, les modèles d'IA bénéficient de l'apprentissage fédéré appliqué à la collaboration de données multi-sources.

En bref :

  • L'équipe Technologie d'apprentissage fédéré de Ping An Technology explore les moyens d'agréger des données plus dimensionnelles et de qualité supérieure provenant de plus de sources afin d'améliorer l'apprentissage des modèles d'IA.

  • En se basant sur les fonctionnalités de la solution Intel® SGX, l'équipe Apprentissage fédéré a travaillé avec Intel pour concevoir une approche d'apprentissage des modèles d'IA avec données multi-sources 1+N dans sa solution d'apprentissage fédéré, apportant une meilleure réponse aux problèmes de sécurité des données et d'évaluation des effets de l'apprentissage.

author-image

Par

La qualité et le volume de données représentent désormais des facteurs essentiels pour les entreprises qui souhaitent développer leur compétitivité dans le domaine de l'intelligence artificielle (IA). Dans le cas de la la société chinoise Ping An Technology, son équipe Technologie d'apprentissage fédéré explore les moyens d'agréger des données plus dimensionnelles et de qualité supérieure provenant de plus de sources en appliquant l'approche de l'apprentissage fédéré aux modèles d'IA.

Toutefois, l'échange, la transmission et l'agrégation de données multi-sources posent également des problèmes complexes de sécurité, en particulier dans les industries et les secteurs sensibles, où le risque de violation de données est sous les feux des projecteurs et retient autant l'attention des autorités que du grand public. Cela s'est traduit par l'introduction d'une série de lois et de réglementations sur la protection des données. Il serait difficile de briser ces silos de données multi-sources, de développer et d'adopter l'apprentissage fédéré sans une solution de collaboration de données multi-sources sûre et fiable.

Une approche viable consiste à créer un environnement d'exécution de confiance (TEE) dans un équipement spécifique, avec le soutien de technologies de sécurité renforcées par matériel pour protéger les données et applications sensibles contre les accès et attaques externes. Grâce à une coopération technique approfondie avec Intel, l'équipe Apprentissage fédéré a réussi à intégrer la technologie Intel® Software Guard Extensions (Intel® SGX), pilier essentiel de la solution TEE, à ses solutions d'apprentissage fédéré. Ce faisant, elle fait office de pionnier dans la mise en œuvre de l'apprentissage de l'IA avec une solution de collaboration de données multi-sources, obtenant des résultats remarquables dans des domaines tels que l'assurance, la santé, la voix intelligente et l'Internet des véhicules (IoV) avec beaucoup de retours positifs de la part des utilisateurs.

« La technologie d'apprentissage fédéré accélère l'évolution de l'intelligence artificielle en contribuant à assurer la sécurité des données et la protection de la vie privée. Intel® Software Guard Extensions est idéal pour créer des environnements d'exécution matériels fiables au sein de solutions d'apprentissage fédéré. Grâce aux instructions du processeur, il crée des zones de confiance dans différentes sources de données accessibles. Cela nous aide à renforcer l'effet de l'apprentissage des modèles d'IA avec des données multi-sources en améliorant encore la sécurité des données. » - Dr. Jianzong Wang, ingénieur en chef adjoint, membre du conseil technologique de Ping An, vice-président de la Guangdong Society of Artificial Intelligence and Robotics, ligue chinoise de développement de logiciels d'intelligence artificielle open source

Les pratiques d'apprentissage fédéré donnent du poids à l'évolution de l'apprentissage de l'IA

Avec l'arrivée d'algorithmes plus matures et d'une puissance de calcul supérieure, la présence de données à grande échelle et de qualité représente un facteur important qui affecte les performances de l'IA. Cependant, au cours du processus d'adoption de l'IA dans diverses industries, le manque de données a produit des résultats médiocres dans l'apprentissage des modèles IA, car les sources de données qui appartiennent à différentes entreprises et départements sont séparées les unes des autres. Le système doit généralement intégrer des données provenant de sources multiples pour l'apprentissage des modèles, mais cette approche ne garantit pas la sécurité des données échangées et augmente le risque de fuite de données.

Les gouvernements renforcent la protection des données par des lois et des réglementations, car la sécurité et la confidentialité des données font l'objet d'une attention croissante. Par exemple, la ligne directrice « Guideline for Internet Personal Information Security Protection », officiellement publiée en Chine en avril 2019, contient des dispositions claires sur le partage et le transfert de données à caractère personnel et renforce encore les mesures de protection des données à caractère personnel1. En mai 2019, l'Administration du cyberespace de Chine, en collaboration avec les autorités compétentes, a rédigé le document « Mesures pour la gestion de la sécurité des données (document de consultation) », qui fournit des avis et des exigences clairs sur le traitement et l'utilisation des données ainsi que sur la supervision et la gestion de la sécurité des données2.

L'apprentissage de l'IA nécessite donc une méthode sûre d'agrégation des données pour améliorer les capacités de collaboration de données multi-sources. Sensible au développement de l'IA et des technologies big data, l'équipe Apprentissage fédéré explore de manière proactive les approches d'apprentissage fédéré de plus en plus matures. Dans l'approche de l'apprentissage fédéré, contrairement aux méthodes classiques de partage, les données de chaque nœud sont conservées sur site pour l'apprentissage, de sorte que chaque source est censée participer à l'optimisation du modèle d'IA, la promouvoir et en partager les résultats en garantissant la confidentialité des données.

Sur cette base, l'équipe Apprentissage fédéré a créé une plateforme Hive d'apprentissage fédéré afin de fournir aux utilisateurs une solution unique pour protéger la confidentialité et la sécurité de leurs données. Lors de la construction de la plateforme, la solution doit résoudre des problèmes tels que : comment renforcer encore la sécurité des données multi-sources sur site, comment offrir une garantie de sécurité plus fiable pour le processus provisoire d'optimisation du modèle d'IA, comment évaluer efficacement la contribution de chaque source de données au résultat final de l'optimisation. L'équipe Apprentissage fédéré et Intel ont apporté une meilleure solution à ces problèmes en introduisant la technologie Intel SGX.

Technologies de sécurité renforcées par le matériel et apprentissage fédéré

Au cours du processus d'agrégation de données multi-sources pour mettre en œuvre l'apprentissage des modèles d'IA avec la méthode d'apprentissage fédéré, les modèles d'IA ou les paramètres des processus doivent être transmis et échangés vers différents nœuds de données par le biais du réseau. Il est bien connu que plus l'exposition des données est importante, plus les risques de sécurité auxquels elles sont confrontées sont élevés. Par conséquent, quels que soient les infrastructures matérielles ou systèmes d'exploitation utilisés dans chaque nœud, ou bien les appareils réseau (routeurs, passerelles, etc.) employés, ils pourraient engendrer des risques de sécurité tels que des fuites de données et des altérations s'ils étaient « contaminés ».

Par exemple, un pirate peut intercepter des messages en installant un « renifleur » (sniffer) dans un émetteur sur le réseau ou utiliser une attaque par démarrage à froid pour lire les données rémanentes après le redémarrage du serveur, ou même attaquer les données en mémoire directement par des méthodes d'espionnage des bus mémoire ou de falsification de la mémoire. Compte tenu de la diversité des méthodes d'attaque possibles, il est difficile de sécuriser le système et de mettre en place un mécanisme de protection et de prévention ascendant couvrant les logiciels, le matériel et le système d'exploitation. Les efforts déployés pour mettre en place un tel mécanisme épuisent les ressources et augmentent le coût total de possession (TCO), sans nécessairement donner des résultats satisfaisants dans les scénarios de protection réels.

Mettre en place une solution TEE pour les zones de confiance dans le matériel est une meilleure option pour résoudre ces problèmes. Intel SGX, élément clé de la mise en œuvre de cette solution, permet de créer une « enclave » de confiance dans un équipement spécifique (par exemple la mémoire), avec des limites de sécurité des données et des applications limitées à l'« enclave » elle-même et au processeur, comme le montre la figure 1. Dans le même temps, comme son fonctionnement ne repose pas sur d'autres équipements matériels ou logiciels, la sécurité et la protection des données sont indépendantes du système d'exploitation ou de la configuration matérielle. Ainsi, même si les pilotes matériels, les machines virtuelles ou le système d'exploitation sont attaqués et détruits, les fuites de données peuvent être évitées plus efficacement.

Figure 1. Intel SGX renforce la sécurité des données grâce à des « enclave » de confiance

En se basant sur les fonctionnalités de la solution Intel SGX, l'équipe Apprentissage fédéré a travaillé avec Intel pour concevoir une approche d'apprentissage des modèles d'IA avec données multi-sources 1+N dans sa solution d'apprentissage fédéré, apportant une meilleure réponse aux problèmes de sécurité des données et d'évaluation des effets de l'apprentissage.

L'architecture de la nouvelle solution 1+N (illustrée à la figure 2) comporte un réseau constitué d'une « enclave » d'agrégateur située au centre et N « enclaves » périphériques déployées ailleurs. Les « enclaves » dans les systèmes d'agrégateur et de source de données sont toutes des zones de confiance créées dans la mémoire par le biais des instructions du processeur fournies par Intel SGX.

Figure 2. Solution d'apprentissage fédéré utilisant Intel SGX

Dans la solution 1+N, c'est le modèle d'IA à former et à optimiser, ainsi que les paramètres intermédiaires correspondants, qui doivent être transmis dans un canal chiffré, tandis que les données d'apprentissage, le modèle d'IA en texte clair et l'algorithme d'IA sont conservés dans le nœud où se trouve chaque source de données. Lors du processus d'initialisation, les « enclaves » généreront elles-mêmes des paires de clés publiques-privées, les clés publiques étant enregistrées auprès de l'agrégateur et les clés privées stockées dans leur propre « enclave » respectivement. Au début de l'apprentissage, l'agrégateur établit d'abord une connexion chiffrée avec l'« enclave » cible. La clé chiffrée symétrique pour cette connexion est fournie par négociation en utilisant l'algorithme asymétrique des paires de clés publiques-privées, ce qui permet d'éviter une « attaque de l'homme du milieu ». Une fois la connexion établie, l'agrégateur commence par chiffrer le modèle d'IA à former et le transmet vers chaque « enclave », puis chaque « enclave » déchiffre le modèle et le transmet à l'environnement local d'apprentissage de l'IA pour former les données locales. Après l'apprentissage, l'environnement local d'apprentissage de l'IA renvoie les paramètres intermédiaires de la formation à l'« enclave » locale.

Afin de répondre aux besoins des entreprises, l'équipe a innové en matière d'apprentissage fédéré : toutes les « enclaves » de chaque environnement local sont des agents de confiance pour la fédération. En outre, comme l'algorithme appliqué aux étapes ultérieures est capable de fonctionner directement dans l'« enclave », les agents de confiance pourront faire de plus en plus dans l'environnement local. Ensuite, l'« enclave » chiffrera les paramètres intermédiaires dans la connexion chiffrée et les transmettra à l'« enclave » de l'agrégateur qui agrégera rapidement les paramètres intermédiaires qu'il a reçus. Avant de passer à l'itération suivante, il optimisera et ajustera le modèle d'IA en fonction des résultats.

Les processus ci-dessus étant tous mis en œuvre dans des « enclaves », le modèle d'IA et les paramètres intermédiaires sont transmis et échangés dans les canaux chiffrés et les « enclaves », sans aucun contact avec le matériel ou le logiciel externe tout au long du bouclage et de l'itération de la solution. Résultat : cela permet d'obtenir une « boucle interne » plus sûre et plus fiable. Les processeurs d'architecture Intel® fournissent un puissant support informatique pour la construction de l'« enclave », la disposition de canaux chiffrés, l'échange et l'agrégation de paramètres intermédiaires.

Pour évaluer la contribution de chaque nœud à l'effet de l'apprentissage, tous les nœuds peuvent d'abord être formés dans la solution 1+N pour obtenir l'effet d'apprentissage du volume total lorsqu'il y a N sources de données. Par la suite, les nœuds N-1 autres que celui à évaluer sont formés séparément (par exemple, lors de l'évaluation du nœud 1, les nœuds 2 à N sont formés). Après avoir obtenu des modèles avec différents effets d'apprentissage, le système calculera le « coefficient de contribution » de chaque nœud de données dans l'apprentissage fédéré pour obtenir une évaluation plus précise de la contribution de chaque nœud dans l'apprentissage commun de l'IA et ajuster la solution en conséquence. Ces algorithmes et cette programmation peuvent avoir un impact sur les résultats de l'apprentissage fédéré. Leur fonctionnement dans la pratique reste néanmoins à prouver. Il reste beaucoup de marge pour explorer et découvrir comment utiliser davantage l'« enclave » basée sur la technologie Intel®.

Résultats des principales pratiques d'apprentissage fédéré

Prenons l'exemple de l'application de l'apprentissage fédéré dans le secteur des assurances. Avant l'apprentissage fédéré, le vendeur fixait le montant de la prime d'une police en se basant uniquement sur des informations de base comme l'âge et le sexe du client. Toutefois, avec le développement continu de la société de l'information, la quantité et les caractéristiques des données des utilisateurs ont considérablement augmenté. Par exemple, en termes d'assurance maladie, la précision de l'évaluation des risques pour la santé de l'assuré s'améliorera si le système de l'entreprise peut faire des prévisions basées sur l'IA en utilisant de grandes quantités de données, y compris les dossiers médicaux et les antécédents familiaux, pour obtenir une catégorisation plus précise de l'évaluation de santé.

Les établissements de santé sont néanmoins tenus d'assurer la confidentialité des dossiers et des antécédents médicaux. En plus d'être impossibles à divulguer, ces données exigent un niveau de sécurité renforcé. Désormais, grâce à l'introduction d'une solution d'apprentissage fédérée, les assureurs sont en mesure de former les modèles de tarification sans toucher aux données de l'utilisateur. Si l'on en croit les réactions obtenues avec les premiers projets dans ce domaine, la solution d'apprentissage fédéré 1+N peut considérablement améliorer l'effet de la tarification personnalisée des assurances.

Perspectives

Le phénomène des silos de données devient de plus en plus problématique du fait de l'augmentation de la valeur des données et d'un manque de protection efficace des données dans certains secteurs d'activité. En réponse à certains de ces défis en matière de données pour le développement de l'IA, le Dr. Jianzong Wang, pionnier de l'apprentissage fédéré en Chine et responsable de l'équipe Technologie d'apprentissage fédéré de Ping An Technology, a conduit ses coéquipiers à explorer activement la sécurité des données et les collaborations de confiance dans des environnements de données multi-sources. L'équipe utilise des méthodes avancées d'apprentissage fédéré pour faire face aux défis liés aux données et a accumulé une grande expérience pour réaliser des percées dans ce domaine. Elle a fait beaucoup de progrès, fournissant une référence utile pour l'application de l'apprentissage fédéré dans différents secteurs industriels.

Actuellement, l'équipe utilise la méthode d'apprentissage fédéré pour développer un modèle d'apprentissage polymorphe et multitâche pour l'industrie financière, qui fait l'objet d'une forte surveillance en ce qui concerne l'utilisation des données. Ce modèle est conçu pour répondre aux besoins des banques et des institutions financières dans divers cas d'usage comme l'évaluation des risques, la lutte contre le blanchiment d'argent, le conseil en investissement, la recherche en investissement, le crédit, l'assurance et la supervision. En développant ce modèle, l'équipe souhaite aider les utilisateurs à exploiter les capacités de l'IA pour construire des modèles de contrôle des risques et marketing plus efficaces, identifier les risques financiers potentiels (tels que fraude par carte bancaire, arriérés d'emprunts, fraude financière, etc.), réduisant ainsi les risques opérationnels des entreprises financières. Dans le même temps, la méthode d'apprentissage fédéré peut aider les utilisateurs à se servir de données horizontales pour le profilage des utilisateurs, pour élargir les canaux de vente et optimiser les stratégies marketing, en fournissant un moteur intelligent pour améliorer les capacités de vente.

À l'avenir, l'équipe Apprentissage fédéré poursuivra sa coopération technologique avec Intel pour assurer un fonctionnement sûr et une transformation efficace des ressources de données dans l'apprentissage fédéré avec un nombre croissant de technologies avancées. Les deux partenaires établiront d'autres collaborations avec des entreprises et des institutions pour surmonter les obstacles liés aux données et promouvoir le développement et l'application rapides de l'apprentissage fédéré dans tous les domaines possibles.

Avantages de la solution de l'équipe Apprentissage fédéré :

  • Grâce aux instructions du processeur, Intel SGX crée des « enclaves » de mémoire qui assurent une meilleure sécurité des données sur chaque nœud d'apprentissage fédéré pour l'échange et la transmission des paramètres intermédiaires, ce qui contribue à prévenir les attaques internes et externes, tout en offrant une sécurité plus fiable pour la mise en œuvre et l'exploration de l'apprentissage fédéré dans un environnement de données multi-sources.
  • La solution d'apprentissage fédéré 1+N qui intègre Intel SGX aide à évaluer avec précision la contribution des données de chaque nœud dans l'apprentissage des modèles d'IA et permet à l'utilisateur d'ajuster facilement la solution.

Télécharger le PDF ›