Uczestnicy:
- Krzysztof Ostrowski (Google)
- Alex Ingerman (Google)
- DeWitt Clinton (Google)
- Boyi Chen (LinkedIn)
- Souvik Ghosh (LinkedIn)
- Zheng Li (LinkedIn)
[chen] Nasze obecne zastosowanie, obszary zainteresowania wkładów, procesy dotyczące sposobu wnoszenia wkładu; plan przyszłego rozwoju
[boyi] Jak dzisiaj używamy FL
- Dwie części - jedna to silos krzyżowy
- Dane naszych użytkowników
- Wymogi prawne ograniczają dostęp do danych
- FL przydaje się z danymi 3P
- Może wykorzystywać dane, zachowując zgodność z przepisami
- On-device FL - ciekawe, ale głównie działające na cross-silos
- Kilka projektów, które moglibyśmy zrealizować
- Buduję prototypy
- TFF przydaje się
- Benchmark FL a spersonalizowana nauka transferu
- Wykorzystywanie danych klientów do trenowania spersonalizowanego modelu dla każdego klienta vs. uczenie transferowe f, porównaj
- Wyzwania związane z działaniem FL
- Niektórzy klienci są więksi niż inni -> stronniczość
- Klienci wnoszący największy wkład martwią się o freeriderów; klienci z najmniejszą ilością danych martwią się, że nie wpłyną wystarczająco na model
- Wyzwania dotyczące skalowalności
- Teraz do wnioskowania (setki M)
- Dane szkoleniowe nie są obecnie tak duże (10s-100sK/silos)
- Uruchamianie wnioskowania w partii na O (setkach M) klientów
- Całkowita ilość danych jako główne wyzwanie
- Zapisy u wszystkich klientów
- Rozmiar klastra jest teraz ograniczony, co ogranicza szybkość wnioskowania
- Klient = silos, który nie musi mieć danych mieszanych z innymi silosami. Jaka jest kardynalność?
- Prowadząc eksperymenty teraz, chcesz skalować do setek tysięcy silosów w przyszłości
- Jaka jest liczba klientów TFF, które widziałeś?
- Na urządzeniu: duża liczba małych silosów danych; x-silo to mała liczba dużych zbiorów danych
- Jak podobne są silosy?
- Schematy są takie same, ale dystrybucja danych różni się znacznie w poszczególnych silosach. Nierówny udział
- [K] Czy myślisz o TFF do wnioskowania czy treningu?
- [B] Teraz użyj TFF do treningu; woleliby trenować i wnioskować na tych samych ramach.
- [K] Ta sama infra czy te same modele?
- [b} teraz, ten sam model i ten sam klaster
- [B] Chcesz zrozumieć, jak trenować modele i wdrażać je na urządzeniach.
- [S] Ważna jest potrzeba trenowania modeli w jednym środowisku, wyjmowania i używania w innym środowisku. Tylko nie przy pierwszej aplikacji.
- Dwie części - jedna to silos krzyżowy
[B] Co chcemy zbudować:
- Jeden pomysł na wkład, gdy już zrobimy benchmarki dotyczące uczciwości, możemy dodać narzędzia i benchmarki do TFF
- Jak model radzi sobie w silosach (nierówna wydajność i stronniczość)
- [K] Czy uważasz to za problem w praktyce? [B] Wierzymy, że będzie to problem w praktyce.
- [B] Pomyśl o tym z perspektywy przeciwnika. Ludzie będą zaniepokojeni wkładaniem danych do pudełka. Jest to ogólna obawa, ale nie mamy określonej metryki.
- [K] Do czego się mówimy? Czy mówisz o sytuacji, w której są silosy + przepisy dotyczące tego, jak to przetwarzać - ale nie jest to kontradyktoryjność, po prostu nie chcesz tworzyć stronniczości. Vs. kolejna sytuacja, w której istnieje wiele instytucji, które wzajemnie nie ufają stronom. Czy myślimy o jednym czy o obu?
- [B] Chcemy przyjrzeć się obu; teraz pomyśl tylko o tym drugim.
- [D] np. silos to firmy, a zbiory danych to dane przesłane przez każdą z nich
- [K] Wskazujesz na obawy związane z freeloadingiem. Ale są też strony wzajemnie nieufne. Czy strony chcą uniemożliwić innym/ciebie wgląd do danych? Te obawy są napięte. Z jednej strony chcesz zweryfikować wkład w zapobieganie atakom, z drugiej nie chcesz oglądać treści dla prywatności
- [B] Spójrz na to na 2 sposoby. Jednym z nich jest zachowanie prywatności - poprzez DP itp. Inna część, z perspektywy wydajności modelu, podczas uczenia się z danych z wielu silosów, istnieje obawa, że różne silosy odnoszą różne korzyści. Uważamy, że istnieje standardowy sposób podejścia do tego pierwszego; to drugie jest trudniejsze.
- [K] Uczciwość w tym sensie, że model działa dobrze; inny może być darmowy. To ta ostatnia bardziej kłóci się z prywatnością. Martwisz się tym?
- [B] Oba są równie ważne. Chcesz zarówno chronić prywatność danych, jak i mieć sprawiedliwy sposób dystrybucji korzyści.
- [S] Nie mamy jeszcze dobrych odpowiedzi. [K] To samo.
- [D] W jakim stopniu te firmy ufają, że linkedin to obsługuje?
- [S] Zaufanie nie było do tej pory problemem, przynajmniej w przykładach, o których wiem. Otrzymaliśmy kilka próśb o ograniczenie, ale żadnych kategorycznych odmów. Ludzie chętnie dzielą się danymi, abyśmy mogli budować wspólną wartość.
- [A] Obawa o prywatność samych silosów, czy osoby w silosach?
- [S] Ten ostatni
- Jeden pomysł na wkład, gdy już zrobimy benchmarki dotyczące uczciwości, możemy dodać narzędzia i benchmarki do TFF
[D] Czy to jest budowane na platformie Azure? Inne kwestie związane z wdrażaniem, o których musimy pomyśleć?
- [S] W końcu pojawią się GPU; początkowe modele będą mniejsze i będą miały mniej potrzeb. Ostatecznie będzie to obejmować dużą liczbę członków i przedsiębiorstw → modele będą rosły dość duże.
- [D] Czy to ten sam lazur, który jest publicznie dostępny? Lub jakąś wewnętrzną infra do celu, która nie jest widoczna na zewnątrz.
- [S] Dość standardowe rzeczy.
- [D] Ułatwia współpracę, sprawia, że kod OSS jest bardziej wartościowy, ponieważ każdy może go uruchomić na publicznym azure.
[K] Zróbmy rzeczy! Co to powinno być? Wspomnieliśmy o zestawie benchmarków i platformie cross-silos. WDYT o upublicznieniu PRD, omówieniu funkcji i przypadków użycia?
- [Z] Jak wygląda specyfikacja produktu? Małe elementy w TFF?
- [k] moglibyśmy mówić o komponentach lub produkcie, który można zbudować na bazie tff i udostępnić innym.
- [Z] Chcę zrozumieć – czy to jest proces wnoszenia wkładów? Zacznij od produktu?
- [k] robimy tutaj ten proces. Zależy od tego, gdzie czujesz się komfortowo.
- [Z] Czy macie przykłady takich produktów, może poza TFF, ale w TF.
- [K] TF posiada proces dokumentacji projektowej. Możemy zacząć przekształcać te notatki w coś takiego. Np. silosy, które nie ufają sobie wzajemnie, chcą używać technik takich jak DP, muszą działać na Azure
- [D] Posiadanie katalogu przypadków użycia jest pomocne, bez ujawniania informacji
- [K] Chcemy opracować mapę drogową, dokumenty, przykłady użycia, które i tak będą istnieć w TFF, możemy zacząć razem. Jeśli zaczynanie od małych jest łatwiejsze, zróbmy to.
- [B] Widzę dużo badań na temat wyzwań we FL. Może uda nam się wykorzystać kilka narzędzi, aby sprostać tym wyzwaniom i zacząć od tego. Podobnie jak w przypadku freeride’u, heterogeniczność danych – wydaje się powszechnym wyzwaniem w środowiskach sfederowanych. Narzędzia przydadzą się uniwersalnie.
- [K] Narzędzia do oceny wyzwań? Lub elementy systemu.
- [B] Funkcjonalność, którą może zapewnić TFF
- [K] +1. Rozpoczęcie od PRD daje kontekst do mówienia o funkcjach, ale możemy również mówić o funkcjach w izolacji. Może zaczniemy od dokumentu, który opisuje wyzwania związane z freeloadingiem i pracuje nad narzędziami do radzenia sobie z nimi.
- [D] Pracujemy również z naukowcami. Czy LinkedIn ma na celu generowanie wyników badań oprócz produktu?
- [Z] Na krótką metę, jeszcze nie do badań.
[K] Wygląda na to, że możemy zacząć od kilku udostępnionych dokumentów, zacząć opisywać niektóre funkcje lub komponenty? Każda ze stron może zainicjować. Możemy korzystać z dokumentów Google i poczty e-mail. Pozwala domyślnie na publiczne.
[ostrowski] Co chcielibyśmy zbudować i jakie konkretne pierwsze kroki możemy podjąć
- Dążąc do czegoś więcej niż kolejnego spotkania – AI jest dla nas samych?
- Zaczęliśmy opisywać kilka konkretnych produktów/projektów
- Pakiet porównawczy
- Platforma cross-silos z DP, uczciwością, zabezpieczeniami wolnego załadunku
- Możliwe dalsze kroki
- Otworzyć dokument wymagań dotyczących produktu i otwarcie go wspólnie opracować dla każdego z powyższych?
- Rozpocząć wymianę pomysłów na poziomie projektu?
- Potencjalne plany rzeczywistych wkładów rozwojowych?
- Konkretne komponenty/funkcje, które chciałbyś opracować?
- Konkretne artefakty do stworzenia:
- Udostępniony dokument opisujący problem ze swobodnym ładowaniem i wymagania narzędzia lub funkcji w TFF, które mogą go rozwiązać
- Wspólny dokument, który opisuje testy porównawcze dla stronniczości w silosach z nierównymi ilościami danych, co chcielibyśmy, aby mierzył test porównawczy
- Udostępniony dokument definiujący nowy komponent, który umożliwi działanie TFF w środowisku opartym na Azure (do ustalenia, z którą warstwą będzie musiał się zintegrować)
[ostrowski] Porozumiewanie się otwarcie
- Co udostępnić publicznie (na stronie docelowej GitHub )
- Podsumowanie dyskusji i decyzji z tego oraz spotkań uzupełniających udostępniane w ciągu kilku dni po każdym spotkaniu na stronie GitHub
- Linki do artefaktów (wszelkie plany, mapy drogowe, dokumenty projektowe itp. do utworzenia) również do opublikowania na GitHub
- Rozmowy (czat?)
- Luźny
- Wspólne cele:
- Konkretne produkty/komponenty w zakresie?
- Karta dla bardziej konkretnej/wąsko zakrojonej grupy roboczej wspierającej ich rozwój?
[B] Co zrobić w przypadku drobnych, operacyjnych problemów?
- [K] Problemy ze Slack lub GitHub mogą działać. Co byłoby dla Ciebie produktywne?
[ostrowski] Cykliczny harmonogram spotkań, na który możemy się wspólnie zobowiązać?
- Miesięczny
Notatki ze spotkania współpracowników TFF 16.02.2022,Notatki ze spotkania współpracowników TFF 16.02.2022
O ile nie stwierdzono inaczej, treść tej strony jest objęta licencją Creative Commons – uznanie autorstwa 4.0, a fragmenty kodu są dostępne na licencji Apache 2.0. Szczegółowe informacje na ten temat zawierają zasady dotyczące witryny Google Developers. Java jest zastrzeżonym znakiem towarowym firmy Oracle i jej podmiotów stowarzyszonych.
Ostatnia aktualizacja: 2025-07-25 UTC.
[[["Łatwo zrozumieć","easyToUnderstand","thumb-up"],["Rozwiązało to mój problem","solvedMyProblem","thumb-up"],["Inne","otherUp","thumb-up"]],[["Brak potrzebnych mi informacji","missingTheInformationINeed","thumb-down"],["Zbyt skomplikowane / zbyt wiele czynności do wykonania","tooComplicatedTooManySteps","thumb-down"],["Nieaktualne treści","outOfDate","thumb-down"],["Problem z tłumaczeniem","translationIssue","thumb-down"],["Problem z przykładami/kodem","samplesCodeIssue","thumb-down"],["Inne","otherDown","thumb-down"]],["Ostatnia aktualizacja: 2025-07-25 UTC."],[],[]]