Ta strona została przetłumaczona przez Cloud Translation API.

Notatki ze spotkania współpracowników TFF 16.02.2022,Notatki ze spotkania współpracowników TFF 16.02.2022

Uczestnicy:
- Krzysztof Ostrowski (Google)
- Alex Ingerman (Google)
- DeWitt Clinton (Google)
- Boyi Chen (LinkedIn)
- Souvik Ghosh (LinkedIn)
- Zheng Li (LinkedIn)
[chen] Nasze obecne zastosowanie, obszary zainteresowania wkładów, procesy dotyczące sposobu wnoszenia wkładu; plan przyszłego rozwoju
[boyi] Jak dzisiaj używamy FL
- Dwie części - jedna to silos krzyżowy
  - Dane naszych użytkowników
  - Wymogi prawne ograniczają dostęp do danych
  - FL przydaje się z danymi 3P
  - Może wykorzystywać dane, zachowując zgodność z przepisami
- On-device FL - ciekawe, ale głównie działające na cross-silos
- Kilka projektów, które moglibyśmy zrealizować
  - Buduję prototypy
  - TFF przydaje się
  - Benchmark FL a spersonalizowana nauka transferu
    - Wykorzystywanie danych klientów do trenowania spersonalizowanego modelu dla każdego klienta vs. uczenie transferowe f, porównaj
    - Wyzwania związane z działaniem FL
      - Niektórzy klienci są więksi niż inni -> stronniczość
      - Klienci wnoszący największy wkład martwią się o freeriderów; klienci z najmniejszą ilością danych martwią się, że nie wpłyną wystarczająco na model
    - Wyzwania dotyczące skalowalności
      - Teraz do wnioskowania (setki M)
      - Dane szkoleniowe nie są obecnie tak duże (10s-100sK/silos)
      - Uruchamianie wnioskowania w partii na O (setkach M) klientów
      - Całkowita ilość danych jako główne wyzwanie
        Zapisy u wszystkich klientów
      - Rozmiar klastra jest teraz ograniczony, co ogranicza szybkość wnioskowania
    - Klient = silos, który nie musi mieć danych mieszanych z innymi silosami. Jaka jest kardynalność?
      - Prowadząc eksperymenty teraz, chcesz skalować do setek tysięcy silosów w przyszłości
    - Jaka jest liczba klientów TFF, które widziałeś?
      - Na urządzeniu: duża liczba małych silosów danych; x-silo to mała liczba dużych zbiorów danych
    - Jak podobne są silosy?
      - Schematy są takie same, ale dystrybucja danych różni się znacznie w poszczególnych silosach. Nierówny udział
  - [K] Czy myślisz o TFF do wnioskowania czy treningu?
    - [B] Teraz użyj TFF do treningu; woleliby trenować i wnioskować na tych samych ramach.
    - [K] Ta sama infra czy te same modele?
    - [b} teraz, ten sam model i ten sam klaster
  - [B] Chcesz zrozumieć, jak trenować modele i wdrażać je na urządzeniach.
  - [S] Ważna jest potrzeba trenowania modeli w jednym środowisku, wyjmowania i używania w innym środowisku. Tylko nie przy pierwszej aplikacji.
[B] Co chcemy zbudować:
- Jeden pomysł na wkład, gdy już zrobimy benchmarki dotyczące uczciwości, możemy dodać narzędzia i benchmarki do TFF
  - Jak model radzi sobie w silosach (nierówna wydajność i stronniczość)
- [K] Czy uważasz to za problem w praktyce? [B] Wierzymy, że będzie to problem w praktyce.
- [B] Pomyśl o tym z perspektywy przeciwnika. Ludzie będą zaniepokojeni wkładaniem danych do pudełka. Jest to ogólna obawa, ale nie mamy określonej metryki.
- [K] Do czego się mówimy? Czy mówisz o sytuacji, w której są silosy + przepisy dotyczące tego, jak to przetwarzać - ale nie jest to kontradyktoryjność, po prostu nie chcesz tworzyć stronniczości. Vs. kolejna sytuacja, w której istnieje wiele instytucji, które wzajemnie nie ufają stronom. Czy myślimy o jednym czy o obu?
- [B] Chcemy przyjrzeć się obu; teraz pomyśl tylko o tym drugim.
- [D] np. silos to firmy, a zbiory danych to dane przesłane przez każdą z nich
- [K] Wskazujesz na obawy związane z freeloadingiem. Ale są też strony wzajemnie nieufne. Czy strony chcą uniemożliwić innym/ciebie wgląd do danych? Te obawy są napięte. Z jednej strony chcesz zweryfikować wkład w zapobieganie atakom, z drugiej nie chcesz oglądać treści dla prywatności
- [B] Spójrz na to na 2 sposoby. Jednym z nich jest zachowanie prywatności - poprzez DP itp. Inna część, z perspektywy wydajności modelu, podczas uczenia się z danych z wielu silosów, istnieje obawa, że różne silosy odnoszą różne korzyści. Uważamy, że istnieje standardowy sposób podejścia do tego pierwszego; to drugie jest trudniejsze.
- [K] Uczciwość w tym sensie, że model działa dobrze; inny może być darmowy. To ta ostatnia bardziej kłóci się z prywatnością. Martwisz się tym?
- [B] Oba są równie ważne. Chcesz zarówno chronić prywatność danych, jak i mieć sprawiedliwy sposób dystrybucji korzyści.
- [S] Nie mamy jeszcze dobrych odpowiedzi. [K] To samo.
- [D] W jakim stopniu te firmy ufają, że linkedin to obsługuje?
- [S] Zaufanie nie było do tej pory problemem, przynajmniej w przykładach, o których wiem. Otrzymaliśmy kilka próśb o ograniczenie, ale żadnych kategorycznych odmów. Ludzie chętnie dzielą się danymi, abyśmy mogli budować wspólną wartość.
- [A] Obawa o prywatność samych silosów, czy osoby w silosach?
- [S] Ten ostatni
[D] Czy to jest budowane na platformie Azure? Inne kwestie związane z wdrażaniem, o których musimy pomyśleć?
- [S] W końcu pojawią się GPU; początkowe modele będą mniejsze i będą miały mniej potrzeb. Ostatecznie będzie to obejmować dużą liczbę członków i przedsiębiorstw → modele będą rosły dość duże.
- [D] Czy to ten sam lazur, który jest publicznie dostępny? Lub jakąś wewnętrzną infra do celu, która nie jest widoczna na zewnątrz.
- [S] Dość standardowe rzeczy.
- [D] Ułatwia współpracę, sprawia, że kod OSS jest bardziej wartościowy, ponieważ każdy może go uruchomić na publicznym azure.
[K] Zróbmy rzeczy! Co to powinno być? Wspomnieliśmy o zestawie benchmarków i platformie cross-silos. WDYT o upublicznieniu PRD, omówieniu funkcji i przypadków użycia?
- [Z] Jak wygląda specyfikacja produktu? Małe elementy w TFF?
- [k] moglibyśmy mówić o komponentach lub produkcie, który można zbudować na bazie tff i udostępnić innym.
- [Z] Chcę zrozumieć – czy to jest proces wnoszenia wkładów? Zacznij od produktu?
- [k] robimy tutaj ten proces. Zależy od tego, gdzie czujesz się komfortowo.
- [Z] Czy macie przykłady takich produktów, może poza TFF, ale w TF.
- [K] TF posiada proces dokumentacji projektowej. Możemy zacząć przekształcać te notatki w coś takiego. Np. silosy, które nie ufają sobie wzajemnie, chcą używać technik takich jak DP, muszą działać na Azure
- [D] Posiadanie katalogu przypadków użycia jest pomocne, bez ujawniania informacji
- [K] Chcemy opracować mapę drogową, dokumenty, przykłady użycia, które i tak będą istnieć w TFF, możemy zacząć razem. Jeśli zaczynanie od małych jest łatwiejsze, zróbmy to.
- [B] Widzę dużo badań na temat wyzwań we FL. Może uda nam się wykorzystać kilka narzędzi, aby sprostać tym wyzwaniom i zacząć od tego. Podobnie jak w przypadku freeride’u, heterogeniczność danych – wydaje się powszechnym wyzwaniem w środowiskach sfederowanych. Narzędzia przydadzą się uniwersalnie.
  - [K] Narzędzia do oceny wyzwań? Lub elementy systemu.
  - [B] Funkcjonalność, którą może zapewnić TFF
  - [K] +1. Rozpoczęcie od PRD daje kontekst do mówienia o funkcjach, ale możemy również mówić o funkcjach w izolacji. Może zaczniemy od dokumentu, który opisuje wyzwania związane z freeloadingiem i pracuje nad narzędziami do radzenia sobie z nimi.
  - [D] Pracujemy również z naukowcami. Czy LinkedIn ma na celu generowanie wyników badań oprócz produktu?
  - [Z] Na krótką metę, jeszcze nie do badań.
[K] Wygląda na to, że możemy zacząć od kilku udostępnionych dokumentów, zacząć opisywać niektóre funkcje lub komponenty? Każda ze stron może zainicjować. Możemy korzystać z dokumentów Google i poczty e-mail. Pozwala domyślnie na publiczne.
[ostrowski] Co chcielibyśmy zbudować i jakie konkretne pierwsze kroki możemy podjąć
- Dążąc do czegoś więcej niż kolejnego spotkania – AI jest dla nas samych?
- Zaczęliśmy opisywać kilka konkretnych produktów/projektów
  - Pakiet porównawczy
  - Platforma cross-silos z DP, uczciwością, zabezpieczeniami wolnego załadunku
- Możliwe dalsze kroki
  - Otworzyć dokument wymagań dotyczących produktu i otwarcie go wspólnie opracować dla każdego z powyższych?
  - Rozpocząć wymianę pomysłów na poziomie projektu?
  - Potencjalne plany rzeczywistych wkładów rozwojowych?
    - Konkretne komponenty/funkcje, które chciałbyś opracować?
- Konkretne artefakty do stworzenia:
  - Udostępniony dokument opisujący problem ze swobodnym ładowaniem i wymagania narzędzia lub funkcji w TFF, które mogą go rozwiązać
  - Wspólny dokument, który opisuje testy porównawcze dla stronniczości w silosach z nierównymi ilościami danych, co chcielibyśmy, aby mierzył test porównawczy
  - Udostępniony dokument definiujący nowy komponent, który umożliwi działanie TFF w środowisku opartym na Azure (do ustalenia, z którą warstwą będzie musiał się zintegrować)
[ostrowski] Porozumiewanie się otwarcie
- Co udostępnić publicznie (na stronie docelowej GitHub )
- Podsumowanie dyskusji i decyzji z tego oraz spotkań uzupełniających udostępniane w ciągu kilku dni po każdym spotkaniu na stronie GitHub
- Linki do artefaktów (wszelkie plany, mapy drogowe, dokumenty projektowe itp. do utworzenia) również do opublikowania na GitHub
- Rozmowy (czat?)
  - Luźny
- Wspólne cele:
  - Konkretne produkty/komponenty w zakresie?
  - Karta dla bardziej konkretnej/wąsko zakrojonej grupy roboczej wspierającej ich rozwój?
[B] Co zrobić w przypadku drobnych, operacyjnych problemów?
- [K] Problemy ze Slack lub GitHub mogą działać. Co byłoby dla Ciebie produktywne?
[ostrowski] Cykliczny harmonogram spotkań, na który możemy się wspólnie zobowiązać?
- Miesięczny

Notatki ze spotkania współpracowników TFF 16.02.2022,Notatki ze spotkania współpracowników TFF 16.02.2022 Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Notatki ze spotkania współpracowników TFF 16.02.2022,Notatki ze spotkania współpracowników TFF 16.02.2022