Notes de la réunion du 16/02/2022 des collaborateurs de TFF,Notes de la réunion du 16/02/2022 des collaborateurs de TFF

  • Intervenants :

    • Krzysztof Ostrowski (Google)
    • Alex Ingerman (Google)
    • DeWitt Clinton (Google)
    • Boyi Chen (LinkedIn)
    • Souvik Ghosh (LinkedIn)
    • Zheng Li (LinkedIn)
  • [chen] Notre utilisation actuelle, les domaines d'intérêt pour les contributions, les processus sur la manière de contribuer ; plan de développement futur

  • [boyi] Comment nous utilisons FL aujourd'hui

    • Deux parties - l'une est inter-silo
      • Données de nos utilisateurs
      • Les exigences légales limitent l'accès aux données
      • FL est pratique avec les données 3P
      • Peut exploiter les données tout en restant conforme à la réglementation
    • FL sur l'appareil - intéressant, mais fonctionne principalement sur le cross-silo
    • Quelques projets que nous pourrions poursuivre
      • ont construit des prototypes
      • TFF est pratique
      • Benchmark FL vs apprentissage par transfert personnalisé
        • Utiliser les données des clients pour former un modèle personnalisé pour chaque client par rapport à l'apprentissage par transfert f, comparer
        • Défis liés au fonctionnement de FL
          • Certains clients plus gros que d'autres -> biais
          • Les clients qui contribuent le plus s'inquiètent des resquilleurs ; les clients avec le moins de données craignent de ne pas influencer suffisamment le modèle
        • Défis d'évolutivité
          • En ce moment pour l'inférence (des centaines de M)
          • Les données de formation ne sont pas si importantes actuellement (10s-100sK/silos)
          • Exécution de l'inférence par lots sur O (centaines de M) clients
          • Le volume total de données comme principal défi
            • Enregistrements sur tous les clients
          • La taille du cluster est maintenant limitée, ce qui limite le taux d'inférence
        • Client = silo qui ne doit pas mélanger les données avec d'autres silos. Quelle est la cardinalité ?
          • Faire des expériences maintenant, vouloir passer à des centaines de milliers de silos à l'avenir
        • Quel est le nombre que vous avez vu pour le nombre de clients TFF ?
          • Sur l'appareil : grand nombre de petits silos de données ; x-silo est un petit nombre de grands ensembles de données
        • À quel point les silos sont-ils similaires ?
          • Les schémas sont les mêmes, mais la distribution des données diffère beaucoup d'un silo à l'autre. Participation inégale
      • [K] Pensez-vous à la TFF pour l'inférence ainsi que pour la formation ?
        • [B] En ce moment, utilisez la TFF pour l'entraînement ; préférerait former et inférence sur le même cadre.
        • [K] Même infra ou mêmes modèles ?
        • [b} en ce moment, même modèle et même cluster
      • [B] Vous souhaitez comprendre comment entraîner des modèles et les déployer sur des appareils.
      • [S] La nécessité de former des modèles dans un environnement, de les retirer et de les utiliser dans un autre environnement est importante. Mais pas avec la première application.
  • [B] Ce que nous voulons construire :

    • Une idée de contribution, une fois que nous aurons fait des repères sur l'équité, nous pourrons ajouter des outils et des repères dans TFF
      • Comment le modèle fonctionne à travers les silos (performances inégales et biais)
    • [K] Voyez-vous cela comme un problème dans la pratique ? [B] Nous pensons que ce sera un problème dans la pratique.
    • [B] Pensez-y d'un point de vue contradictoire. Les gens seront préoccupés par le fait de mettre des données dans la boîte. C'est une préoccupation générale, mais nous n'avons pas de métrique particulière.
    • [K] À quoi s'adresse-t-on ? Parlez-vous d'une situation où il y a des silos + des règles sur la façon de le traiter - mais ce n'est pas contradictoire, vous ne voulez tout simplement pas créer de biais. Contre. une autre situation où il y a plusieurs institutions, des parties qui se méfient mutuellement. Pensons-nous à l'un ou aux deux ?
    • [B] Nous voulons regarder les deux ; pour l'instant ne pensez qu'à ce dernier.
    • [D] par exemple silo ici sont des entreprises, et les ensembles de données sont des données téléchargées par chacun
    • [K] Vous mettez en avant des inquiétudes concernant le resquillage. Mais il y a aussi des parties qui se méfient mutuellement. Les parties veulent-elles empêcher les autres/vous de voir les données ? Ces préoccupations sont en tension. D'un côté, je veux vérifier la contribution pour prévenir les attaques, de l'autre, je ne veux pas voir le contenu, pour des raisons de confidentialité
    • [B] Regardez-le de 2 manières. L'un est la préservation de la vie privée - via DP, etc. D'autre part, du point de vue des performances du modèle, lorsqu'il est formé à partir des données de nombreux silos, il est à craindre que différents silos bénéficient différemment. Nous pensons qu'il existe une manière standard d'aborder le premier; ce dernier est plus délicat.
    • [K] Équité dans le sens où le modèle fonctionne bien ; l'autre peut être freeloading. C'est ce dernier qui est plus en tension avec la vie privée. Cela vous préoccupe-t-il?
    • [B] Les deux sont tout aussi importants. Vous voulez à la fois protéger la confidentialité des données et disposer d'un moyen équitable de répartir les avantages.
    • [S] Nous n'avons pas encore de bonnes réponses. [K] Pareil.
    • [D] Dans quelle mesure ces entreprises font-elles confiance à LinkedIn pour exploiter cela ?
    • [S] La confiance n'a pas été un problème jusqu'à présent, du moins dans les exemples que je connais. Nous avons eu quelques demandes de contraintes, mais pas de refus catégoriques. Les gens sont prêts à partager les données pour nous afin de créer une valeur commune.
    • [A] Préoccupation concernant la confidentialité des silos uniquement, ou des individus au sein des silos ?
    • [S] Ce dernier
  • [D] Est-ce que cela est construit sur Azure ? D'autres éléments de déploiement auxquels nous devons penser ?

    • [S] Finalement, les GPU arriveront ; les modèles initiaux seront plus petits et auront moins de besoins. À terme, cela impliquera un grand nombre de membres et d'entreprises → les modèles deviendront assez importants.
    • [D] Est-ce le même azur qui est accessible au public ? Ou une infra interne à cibler, qui n'est pas visible à l'extérieur.
    • [S] Des trucs assez standards.
    • [D] Facilite la collaboration, rend le code OSS plus précieux puisque tout le monde peut l'exécuter sur public azur.
  • [K] Faisons des choses ! Quels devraient être ceux-ci ? Nous avons mentionné la suite de référence et la plate-forme inter-silos. WDYT sur l'élaboration d'un PRD dans le public, parler de fonctionnalités et de cas d'utilisation ?

    • [Z] À quoi ressemble la spécification du produit ? Petits composants en TFF ?
    • [k] nous pourrions parler de composants ou d'un produit qui peut être construit sur tff et être disponible pour les autres.
    • [Z] Je veux comprendre - est-ce le processus de contribution ? Commencez par le produit ?
    • [k] nous faisons le processus ici. Cela dépend de l'endroit où vous vous sentez à l'aise.
    • [Z] Avez-vous des exemples de tels produits, peut-être en dehors de TFF mais dans TF.
    • [K] TF dispose d'un processus pour les documents de conception. Nous pouvons commencer à transformer ces notes en quelque chose comme ça. Par exemple, les silos, se méfiant mutuellement, veulent utiliser des techniques comme DP, doivent travailler sur Azure
    • [D] Avoir un répertoire des cas d'utilisation est utile, sans révéler d'informations
    • [K] Nous voulons développer une feuille de route, des docs, des exemples de cas d'utilisation qui existeront de toute façon dans TFF, nous pouvons commencer ensemble. S'il est plus facile de commencer petit, faisons-le.
    • [B] Je vois beaucoup de recherches sur les défis en FL. Peut-être pouvons-nous prendre quelques outils pour relever ces défis et commencer par là. Par exemple, semblable au free-riding, l'hétérogénéité des données - semble un défi courant dans les contextes fédérés. Les outils seront utiles universellement.
      • [K] Des outils pour évaluer les défis ? Ou des composants du système.
      • [B] Fonctionnalité que TFF peut fournir
      • [K] +1. Commencer par PRD donne un contexte pour parler de fonctionnalités, mais nous pouvons également parler de fonctionnalités isolément. Peut-être pouvons-nous commencer par un document qui décrit le défi du chargement gratuit et travaille sur les outils à gérer.
      • [D] Nous travaillons aussi avec des chercheurs. LinkedIn vise-t-il à générer des résultats de recherche en plus du produit ?
      • [Z] A court terme, pas encore pour la recherche.
  • [K] On dirait que nous pouvons commencer avec quelques documents partagés, commencer à décrire certaines fonctionnalités ou certains composants ? L'une ou l'autre des parties peut initier. Nous pouvons utiliser Google Docs et le courrier électronique. Par défaut, en public.

  • [ostrowski] Ce que nous aimerions construire et quelles premières mesures concrètes pouvons-nous prendre

    • Visant plus qu'une autre réunion - des IA pour nous-mêmes ?
    • Nous avons commencé à décrire quelques produits / projets spécifiques
      • Suite de référence
      • Plate-forme inter-silos avec protections DP, équité, chargement libre
    • Prochaines étapes possibles
      • Commencez un document sur les exigences du produit et étoffez-le ouvertement ensemble pour chacun des éléments ci-dessus ?
      • Commencer à échanger des idées au niveau du design ?
      • Des plans potentiels pour des contributions réelles au développement ?
        • Composants/fonctionnalités spécifiques que vous aimeriez développer ?
    • Artefacts spécifiques à créer :
      • Document partagé décrivant le problème de chargement gratuit et les exigences d'un outil ou d'une fonctionnalité dans TFF qui pourrait le résoudre
      • Document partagé décrivant les critères de référence pour les biais entre les silos avec des quantités de données inégales, ce que nous aimerions que le critère mesure
      • Document partagé qui définit un nouveau composant qui permettrait à TFF de fonctionner dans un environnement basé sur Azure (à déterminer avec quelle couche il devrait s'intégrer)
  • [ostrowski] Communiquer ouvertement

    • Ce qu'il faut rendre public (sur la page d'accueil GitHub )
    • Un résumé des discussions et des décisions de cette réunion et des réunions de suivi sera disponible quelques jours après chaque réunion sur la page GitHub
    • Liens vers les artefacts (plans, feuilles de route, documents de conception, etc. à créer) également à publier sur GitHub
    • Conversations (chat ?)
      • Mou
    • Objectifs partagés:
      • Produits/composants spécifiques concernés ?
      • Charte pour un groupe de travail plus spécifique / restreint pour soutenir le développement de ceux-ci ?
  • [B] Que faire pour les petits problèmes opérationnels ?

    • [K] Les problèmes de Slack ou de GitHub pourraient fonctionner. Qu'est-ce qui serait productif pour vous ?
  • [ostrowski] Calendrier de réunions récurrentes sur lesquelles nous pouvons nous engager ensemble ?

    • Mensuel