Catatan pertemuan kolaborator TFF 16/2/2022,Catatan pertemuan kolaborator TFF 16/2/2022

  • Peserta:

    • Krzysztof Ostrowski (Google)
    • Alex Ingerman (Google)
    • DeWitt Clinton (Google)
    • Boyi Chen (LinkedIn)
    • Souvik Ghosh (LinkedIn)
    • Zheng Li (LinkedIn)
  • [chen] Penggunaan kami saat ini, bidang minat untuk kontribusi, proses tentang cara berkontribusi; rencana pengembangan masa depan

  • [boyi] Bagaimana kita menggunakan FL hari ini

    • Dua bagian - satu adalah cross-silo
      • Data pengguna kami
      • Persyaratan hukum membatasi akses ke data
      • FL berguna dengan data 3P
      • Dapat memanfaatkan data sambil tetap mematuhi peraturan
    • FL pada perangkat - menarik, tetapi sebagian besar bekerja pada cross-silo
    • Beberapa proyek yang bisa kami kejar
      • Telah membangun prototipe
      • TFF berguna
      • Benchmark FL vs. pembelajaran transfer yang dipersonalisasi
        • Menggunakan data klien untuk melatih model yang dipersonalisasi untuk setiap klien vs. pembelajaran transfer f, bandingkan
        • Tantangan dengan cara kerja FL
          • Beberapa klien lebih besar dari yang lain -> bias
          • Klien yang paling banyak berkontribusi khawatir tentang free-rider; klien dengan data paling sedikit khawatir tidak cukup memengaruhi model
        • Tantangan skalabilitas
          • Sekarang untuk inferensi (ratusan M)
          • Data pelatihan saat ini tidak terlalu besar (10s-100sK/silo)
          • Menjalankan inferensi dalam batch lebih dari O (ratusan M) klien
          • Total volume data sebagai tantangan utama
            • Rekam di semua klien
          • Ukuran cluster sekarang terbatas, membatasi tingkat inferensi
        • Client = silo yang perlu datanya tidak tercampur dengan silo lain. Apa itu kardinalitas?
          • Melakukan eksperimen sekarang, ingin menskalakan hingga 100-an ribu silo di masa depan
        • Berapa nomor yang Anda lihat untuk # klien TFF?
          • Pada perangkat: sejumlah besar silo data kecil; x-silo adalah sejumlah kecil kumpulan data besar
        • Seberapa mirip silo?
          • Skemanya sama, tetapi distribusi data sangat berbeda di seluruh silo. Partisipasi yang tidak setara
      • [K] Apakah Anda memikirkan TFF untuk inferensi dan juga pelatihan?
        • [B] Sekarang, gunakan TFF untuk pelatihan; lebih memilih untuk melatih dan menyimpulkan pada kerangka kerja yang sama.
        • [K] Infra sama atau model sama?
        • [b} sekarang, model yang sama dan cluster yang sama
      • [B] Ingin memahami cara melatih model dan menerapkan ke perangkat.
      • [S] Kebutuhan untuk melatih model di satu lingkungan, mengambil dan menggunakan di lingkungan lain adalah penting. Hanya saja tidak dengan aplikasi pertama.
  • [B] Yang ingin kami bangun:

    • Satu ide untuk kontribusi, setelah kami melakukan tolok ukur keadilan, kami dapat menambahkan alat dan tolok ukur ke TFF
      • Bagaimana model bekerja melintasi silo (kinerja dan bias yang tidak setara)
    • [K] Apakah Anda melihatnya sebagai masalah dalam praktik? [B] Kami percaya itu akan menjadi masalah dalam praktiknya.
    • [B] Pikirkan hal ini dari sudut pandang permusuhan. Orang akan khawatir tentang memasukkan data ke dalam kotak. Ini masalah umum tetapi kami tidak memiliki metrik tertentu.
    • [K] Hal apa yang kita bicarakan? Apakah Anda berbicara tentang situasi di mana ada silo + peraturan tentang cara memprosesnya - tetapi itu bukan permusuhan, Anda hanya tidak ingin membuat bias. Vs. situasi lain di mana ada banyak lembaga, pihak yang saling tidak percaya. Apakah kita memikirkan salah satu atau keduanya?
    • [B] Kami ingin melihat keduanya; sekarang hanya berpikir tentang yang terakhir.
    • [D] misalnya silo di sini adalah perusahaan, dan kumpulan data adalah data yang diunggah oleh masing-masing
    • [K] Anda menyoroti kekhawatiran tentang pemuatan gratis. Namun ada juga pihak yang saling tidak percaya. Apakah para pihak ingin mencegah orang lain/Anda melihat data? Kekhawatiran ini dalam ketegangan. Di satu sisi ingin memverifikasi kontribusi untuk mencegah serangan, di sisi lain tidak ingin melihat konten, untuk privasi
    • [B] Lihatlah dalam 2 cara. Salah satunya adalah menjaga privasi - melalui DP dll. Bagian lain, dari perspektif kinerja model, ketika dilatih dari data banyak silo, ada kekhawatiran bahwa silo yang berbeda mendapat manfaat yang berbeda. Kami pikir ada cara standar untuk mendekati yang pertama; yang terakhir lebih rumit.
    • [K] Kewajaran dalam arti model berkinerja baik; yang lain bisa freeloading. Ini yang terakhir yang lebih tegang dengan privasi. Apakah Anda khawatir tentang hal itu?
    • [B] Keduanya sama pentingnya. Ingin melindungi privasi data dan memiliki cara yang adil untuk mendistribusikan manfaat.
    • [S] Kami belum memiliki jawaban yang bagus. [K] Sama.
    • [D] Seberapa besar kepercayaan perusahaan-perusahaan ini terhadap linkedin untuk mengoperasikannya?
    • [S] Kepercayaan belum menjadi masalah sejauh ini, setidaknya dalam contoh yang saya ketahui. Kami memiliki beberapa permintaan kendala, tetapi tidak ada penolakan mentah-mentah. Orang-orang bersedia berbagi data untuk kami membangun nilai bersama.
    • [A] Kekhawatiran tentang privasi silo saja, atau individu di dalam silo?
    • [S] Yang terakhir
  • [D] Apakah ini sedang dibangun di Azure? Hal-hal penyebaran lain yang perlu kita pikirkan?

    • [S] Akhirnya GPU akan masuk; model awal akan lebih kecil dan memiliki lebih sedikit kebutuhan. Akhirnya, ini akan melibatkan banyak anggota dan perusahaan → model akan tumbuh cukup besar.
    • [D] Apakah ini biru yang sama yang tersedia untuk umum? Atau beberapa infra internal untuk ditargetkan, yang tidak terlihat di luar.
    • [S] Cukup standar.
    • [D] Mempermudah untuk berkolaborasi, membuat kode OSS lebih berharga karena semua orang dapat menjalankannya di public azure.
  • [K] Mari kita membuat sesuatu! Apa yang harus ini? Kami menyebutkan suite benchmark, dan platform cross-silo. WDYT tentang menyempurnakan PRD di depan umum, berbicara tentang fitur dan kasus penggunaan?

    • [Z] Seperti apa spesifikasi produknya? Komponen kecil di TFF?
    • [k] kita bisa berbicara tentang komponen, atau produk yang dapat dibangun di atas tff dan tersedia untuk orang lain.
    • [Z] Saya ingin mengerti - apakah ini proses kontribusi? Mulai dengan produk?
    • [k] kami membuat proses di sini. Tergantung di mana Anda merasa nyaman.
    • [Z] Apakah Anda memiliki contoh produk seperti itu, mungkin di luar TFF tetapi di TF.
    • [K] TF memiliki proses untuk dokumen desain. Kita bisa mulai mengubah catatan ini menjadi sesuatu seperti itu. Misal silo, saling tidak percaya, ingin menggunakan teknik seperti DP, perlu bekerja di Azure
    • [D] Memiliki direktori kasus penggunaan sangat membantu, tanpa mengungkapkan informasi
    • [K] Kami ingin mengembangkan peta jalan, dokumen, contoh kasus penggunaan yang akan ada di TFF, kita bisa mulai bersama. Jika memulai dari yang kecil lebih mudah, mari kita lakukan ini.
    • [B] Saya melihat banyak penelitian tentang tantangan di FL. Mungkin kita bisa mengambil beberapa alat untuk mengatasi tantangan ini dan mulai dari sana. Misalnya mirip dengan free-riding, heterogenitas data - tampaknya merupakan tantangan umum dalam pengaturan federasi. Alat akan berguna secara universal.
      • [K] Alat untuk mengevaluasi tantangan? Atau komponen sistem.
      • [B] Fungsionalitas yang dapat disediakan oleh TFF
      • [K]+1. Dimulai dengan PRD memberikan konteks untuk berbicara tentang fitur, tetapi kita juga dapat berbicara tentang fitur secara terpisah. Mungkin kita bisa mulai dengan dokumen yang menjelaskan tantangan freeloading dan bekerja menuju alat untuk ditangani.
      • [D] Kami juga bekerja sama dengan peneliti. Apakah LinkedIn bertujuan untuk menghasilkan hasil penelitian selain produk?
      • [Z] Dalam jangka pendek, belum untuk penelitian.
  • [K] Sepertinya kita bisa mulai dengan beberapa dokumen bersama, mulai menjelaskan beberapa fitur atau komponen? Salah satu pihak dapat memulai. Kita bisa menggunakan google docs dan email. Biarkan default ke di publik.

  • [ostrowski] Apa yang ingin kami bangun, dan langkah konkret apa yang bisa kami ambil

    • Bertujuan untuk lebih dari sekadar pertemuan lain - AI untuk diri kita sendiri?
    • Kami telah mulai menjelaskan beberapa produk/proyek tertentu
      • Paket tolok ukur
      • Platform lintas silo dengan DP, keadilan, perlindungan pemuatan gratis
    • Kemungkinan langkah selanjutnya
      • Mulai dokumen persyaratan produk dan selesaikan secara terbuka untuk masing-masing hal di atas?
      • Mulai bertukar ide tingkat desain?
      • Rencana potensial untuk kontribusi pembangunan aktual?
        • Komponen/fitur khusus yang ingin Anda kembangkan?
    • Artefak khusus untuk dibuat:
      • Dokumen bersama yang menjelaskan masalah pemuatan gratis dan persyaratan alat atau fitur di TFF yang dapat mengatasinya
      • Dokumen bersama yang menjelaskan tolok ukur untuk bias lintas silo dengan jumlah data yang tidak sama, apa yang kami ingin tolok ukur untuk diukur
      • Dokumen bersama yang mendefinisikan komponen baru yang memungkinkan TFF berfungsi di lingkungan berbasis Azure (TBD dengan lapisan mana yang perlu diintegrasikan)
  • [ostrowski] Berkomunikasi secara terbuka

    • Apa yang harus tersedia untuk umum (di halaman arahan GitHub )
    • Ringkasan diskusi dan keputusan dari pertemuan ini dan pertemuan lanjutan akan tersedia dalam beberapa hari setelah setiap pertemuan di halaman GitHub
    • Tautan ke artefak (rencana, peta jalan, dokumen desain, dll. yang akan dibuat) juga akan dipublikasikan di GitHub
    • Percakapan (obrolan?)
      • Kendur
    • Tujuan bersama:
      • Produk/komponen tertentu dalam ruang lingkup?
      • Piagam untuk kelompok kerja yang lebih spesifik / cakupannya sempit untuk mendukung pengembangan ini?
  • [B] Apa yang harus dilakukan untuk masalah operasional kecil?

    • [K] Masalah Slack atau GitHub dapat berhasil. Apa yang akan produktif bagi Anda?
  • [ostrowski] Jadwal pertemuan berulang yang bisa kita lakukan bersama?

    • bulan