Notatki ze spotkania współpracowników TFF 16.02.2022,Notatki ze spotkania współpracowników TFF 16.02.2022

  • Uczestnicy:

    • Krzysztof Ostrowski (Google)
    • Alex Ingerman (Google)
    • DeWitt Clinton (Google)
    • Boyi Chen (LinkedIn)
    • Souvik Ghosh (LinkedIn)
    • Zheng Li (LinkedIn)
  • [chen] Nasze obecne zastosowanie, obszary zainteresowania wkładów, procesy dotyczące sposobu wnoszenia wkładu; plan przyszłego rozwoju

  • [boyi] Jak dzisiaj używamy FL

    • Dwie części - jedna to silos krzyżowy
      • Dane naszych użytkowników
      • Wymogi prawne ograniczają dostęp do danych
      • FL przydaje się z danymi 3P
      • Może wykorzystywać dane, zachowując zgodność z przepisami
    • On-device FL - ciekawe, ale głównie działające na cross-silos
    • Kilka projektów, które moglibyśmy zrealizować
      • Buduję prototypy
      • TFF przydaje się
      • Benchmark FL a spersonalizowana nauka transferu
        • Wykorzystywanie danych klientów do trenowania spersonalizowanego modelu dla każdego klienta vs. uczenie transferowe f, porównaj
        • Wyzwania związane z działaniem FL
          • Niektórzy klienci są więksi niż inni -> stronniczość
          • Klienci wnoszący największy wkład martwią się o freeriderów; klienci z najmniejszą ilością danych martwią się, że nie wpłyną wystarczająco na model
        • Wyzwania dotyczące skalowalności
          • Teraz do wnioskowania (setki M)
          • Dane szkoleniowe nie są obecnie tak duże (10s-100sK/silos)
          • Uruchamianie wnioskowania w partii na O (setkach M) klientów
          • Całkowita ilość danych jako główne wyzwanie
            • Zapisy u wszystkich klientów
          • Rozmiar klastra jest teraz ograniczony, co ogranicza szybkość wnioskowania
        • Klient = silos, który nie musi mieć danych mieszanych z innymi silosami. Jaka jest kardynalność?
          • Prowadząc eksperymenty teraz, chcesz skalować do setek tysięcy silosów w przyszłości
        • Jaka jest liczba klientów TFF, które widziałeś?
          • Na urządzeniu: duża liczba małych silosów danych; x-silo to mała liczba dużych zbiorów danych
        • Jak podobne są silosy?
          • Schematy są takie same, ale dystrybucja danych różni się znacznie w poszczególnych silosach. Nierówny udział
      • [K] Czy myślisz o TFF do wnioskowania czy treningu?
        • [B] Teraz użyj TFF do treningu; woleliby trenować i wnioskować na tych samych ramach.
        • [K] Ta sama infra czy te same modele?
        • [b} teraz, ten sam model i ten sam klaster
      • [B] Chcesz zrozumieć, jak trenować modele i wdrażać je na urządzeniach.
      • [S] Ważna jest potrzeba trenowania modeli w jednym środowisku, wyjmowania i używania w innym środowisku. Tylko nie przy pierwszej aplikacji.
  • [B] Co chcemy zbudować:

    • Jeden pomysł na wkład, gdy już zrobimy benchmarki dotyczące uczciwości, możemy dodać narzędzia i benchmarki do TFF
      • Jak model radzi sobie w silosach (nierówna wydajność i stronniczość)
    • [K] Czy uważasz to za problem w praktyce? [B] Wierzymy, że będzie to problem w praktyce.
    • [B] Pomyśl o tym z perspektywy przeciwnika. Ludzie będą zaniepokojeni wkładaniem danych do pudełka. Jest to ogólna obawa, ale nie mamy określonej metryki.
    • [K] Do czego się mówimy? Czy mówisz o sytuacji, w której są silosy + przepisy dotyczące tego, jak to przetwarzać - ale nie jest to kontradyktoryjność, po prostu nie chcesz tworzyć stronniczości. Vs. kolejna sytuacja, w której istnieje wiele instytucji, które wzajemnie nie ufają stronom. Czy myślimy o jednym czy o obu?
    • [B] Chcemy przyjrzeć się obu; teraz pomyśl tylko o tym drugim.
    • [D] np. silos to firmy, a zbiory danych to dane przesłane przez każdą z nich
    • [K] Wskazujesz na obawy związane z freeloadingiem. Ale są też strony wzajemnie nieufne. Czy strony chcą uniemożliwić innym/ciebie wgląd do danych? Te obawy są napięte. Z jednej strony chcesz zweryfikować wkład w zapobieganie atakom, z drugiej nie chcesz oglądać treści dla prywatności
    • [B] Spójrz na to na 2 sposoby. Jednym z nich jest zachowanie prywatności - poprzez DP itp. Inna część, z perspektywy wydajności modelu, podczas uczenia się z danych z wielu silosów, istnieje obawa, że ​​różne silosy odnoszą różne korzyści. Uważamy, że istnieje standardowy sposób podejścia do tego pierwszego; to drugie jest trudniejsze.
    • [K] Uczciwość w tym sensie, że model działa dobrze; inny może być darmowy. To ta ostatnia bardziej kłóci się z prywatnością. Martwisz się tym?
    • [B] Oba są równie ważne. Chcesz zarówno chronić prywatność danych, jak i mieć sprawiedliwy sposób dystrybucji korzyści.
    • [S] Nie mamy jeszcze dobrych odpowiedzi. [K] To samo.
    • [D] W jakim stopniu te firmy ufają, że linkedin to obsługuje?
    • [S] Zaufanie nie było do tej pory problemem, przynajmniej w przykładach, o których wiem. Otrzymaliśmy kilka próśb o ograniczenie, ale żadnych kategorycznych odmów. Ludzie chętnie dzielą się danymi, abyśmy mogli budować wspólną wartość.
    • [A] Obawa o prywatność samych silosów, czy osoby w silosach?
    • [S] Ten ostatni
  • [D] Czy to jest budowane na platformie Azure? Inne kwestie związane z wdrażaniem, o których musimy pomyśleć?

    • [S] W końcu pojawią się GPU; początkowe modele będą mniejsze i będą miały mniej potrzeb. Ostatecznie będzie to obejmować dużą liczbę członków i przedsiębiorstw → modele będą rosły dość duże.
    • [D] Czy to ten sam lazur, który jest publicznie dostępny? Lub jakąś wewnętrzną infra do celu, która nie jest widoczna na zewnątrz.
    • [S] Dość standardowe rzeczy.
    • [D] Ułatwia współpracę, sprawia, że ​​kod OSS jest bardziej wartościowy, ponieważ każdy może go uruchomić na publicznym azure.
  • [K] Zróbmy rzeczy! Co to powinno być? Wspomnieliśmy o zestawie benchmarków i platformie cross-silos. WDYT o upublicznieniu PRD, omówieniu funkcji i przypadków użycia?

    • [Z] Jak wygląda specyfikacja produktu? Małe elementy w TFF?
    • [k] moglibyśmy mówić o komponentach lub produkcie, który można zbudować na bazie tff i udostępnić innym.
    • [Z] Chcę zrozumieć – czy to jest proces wnoszenia wkładów? Zacznij od produktu?
    • [k] robimy tutaj ten proces. Zależy od tego, gdzie czujesz się komfortowo.
    • [Z] Czy macie przykłady takich produktów, może poza TFF, ale w TF.
    • [K] TF posiada proces dokumentacji projektowej. Możemy zacząć przekształcać te notatki w coś takiego. Np. silosy, które nie ufają sobie wzajemnie, chcą używać technik takich jak DP, muszą działać na Azure
    • [D] Posiadanie katalogu przypadków użycia jest pomocne, bez ujawniania informacji
    • [K] Chcemy opracować mapę drogową, dokumenty, przykłady użycia, które i tak będą istnieć w TFF, możemy zacząć razem. Jeśli zaczynanie od małych jest łatwiejsze, zróbmy to.
    • [B] Widzę dużo badań na temat wyzwań we FL. Może uda nam się wykorzystać kilka narzędzi, aby sprostać tym wyzwaniom i zacząć od tego. Podobnie jak w przypadku freeride’u, heterogeniczność danych – wydaje się powszechnym wyzwaniem w środowiskach sfederowanych. Narzędzia przydadzą się uniwersalnie.
      • [K] Narzędzia do oceny wyzwań? Lub elementy systemu.
      • [B] Funkcjonalność, którą może zapewnić TFF
      • [K] +1. Rozpoczęcie od PRD daje kontekst do mówienia o funkcjach, ale możemy również mówić o funkcjach w izolacji. Może zaczniemy od dokumentu, który opisuje wyzwania związane z freeloadingiem i pracuje nad narzędziami do radzenia sobie z nimi.
      • [D] Pracujemy również z naukowcami. Czy LinkedIn ma na celu generowanie wyników badań oprócz produktu?
      • [Z] Na krótką metę, jeszcze nie do badań.
  • [K] Wygląda na to, że możemy zacząć od kilku udostępnionych dokumentów, zacząć opisywać niektóre funkcje lub komponenty? Każda ze stron może zainicjować. Możemy korzystać z dokumentów Google i poczty e-mail. Pozwala domyślnie na publiczne.

  • [ostrowski] Co chcielibyśmy zbudować i jakie konkretne pierwsze kroki możemy podjąć

    • Dążąc do czegoś więcej niż kolejnego spotkania – AI jest dla nas samych?
    • Zaczęliśmy opisywać kilka konkretnych produktów/projektów
      • Pakiet porównawczy
      • Platforma cross-silos z DP, uczciwością, zabezpieczeniami wolnego załadunku
    • Możliwe dalsze kroki
      • Otworzyć dokument wymagań dotyczących produktu i otwarcie go wspólnie opracować dla każdego z powyższych?
      • Rozpocząć wymianę pomysłów na poziomie projektu?
      • Potencjalne plany rzeczywistych wkładów rozwojowych?
        • Konkretne komponenty/funkcje, które chciałbyś opracować?
    • Konkretne artefakty do stworzenia:
      • Udostępniony dokument opisujący problem ze swobodnym ładowaniem i wymagania narzędzia lub funkcji w TFF, które mogą go rozwiązać
      • Wspólny dokument, który opisuje testy porównawcze dla stronniczości w silosach z nierównymi ilościami danych, co chcielibyśmy, aby mierzył test porównawczy
      • Udostępniony dokument definiujący nowy komponent, który umożliwi działanie TFF w środowisku opartym na Azure (do ustalenia, z którą warstwą będzie musiał się zintegrować)
  • [ostrowski] Porozumiewanie się otwarcie

    • Co udostępnić publicznie (na stronie docelowej GitHub )
    • Podsumowanie dyskusji i decyzji z tego oraz spotkań uzupełniających udostępniane w ciągu kilku dni po każdym spotkaniu na stronie GitHub
    • Linki do artefaktów (wszelkie plany, mapy drogowe, dokumenty projektowe itp. do utworzenia) również do opublikowania na GitHub
    • Rozmowy (czat?)
      • Luźny
    • Wspólne cele:
      • Konkretne produkty/komponenty w zakresie?
      • Karta dla bardziej konkretnej/wąsko zakrojonej grupy roboczej wspierającej ich rozwój?
  • [B] Co zrobić w przypadku drobnych, operacyjnych problemów?

    • [K] Problemy ze Slack lub GitHub mogą działać. Co byłoby dla Ciebie produktywne?
  • [ostrowski] Cykliczny harmonogram spotkań, na który możemy się wspólnie zobowiązać?

    • Miesięczny