2022 年 2 月 16 日の TFF 協力者会議のメモ,2022 年 2 月 16 日の TFF 協力者会議のメモ

  • 参加者:

    • Krzysztof Ostrowski(Google)
    • アレックスインガ​​ーマン(グーグル)
    • デウィットクリントン(Google)
    • Boyi Chen(LinkedIn)
    • Souvik Ghosh(LinkedIn)
    • Zheng Li(LinkedIn)
  • [chen]私たちの現在の使用法、貢献の関心分野、貢献方法のプロセス。将来の開発計画

  • [boyi]今日のFLの使い方

    • 2つの部分-1つはクロスサイロです
      • ユーザーのデータ
      • 法的要件により、データへのアクセスが制限されます
      • FLは3Pデータに便利です
      • 規制に準拠しながらデータを活用できます
    • オンデバイスFL-興味深いですが、主にクロスサイロに取り組んでいます
    • 私たちが追求できるいくつかのプロジェクト
      • プロトタイプを作成してきました
      • TFFは便利です
      • ベンチマークFLとパーソナライズされた転移学習
        • クライアントのデータを使用して、各クライアントのパーソナライズされたモデルと転移学習fをトレーニングし、比較します。
        • FLの仕組みに関する課題
          • 一部のクライアントは他のクライアントよりも大きい->バイアス
          • 最も貢献しているクライアントは、フリーライダーについて心配しています。データが最も少ないクライアントは、モデルに十分な影響を与えないことを心配しています
        • スケーラビリティの課題
          • 今推論のために(数百M)
          • 現在それほど大きくないトレーニングデータ(10s-100sK /サイロ)
          • O(数百M)のクライアントで推論をバッチで実行する
          • 主な課題としての総データ量
            • すべてのクライアントにわたる記録
          • クラスターサイズが制限され、推論の速度が制限されるようになりました
        • クライアント=データが他のサイロと混ざり合う必要のないサイロ。カーディナリティとは何ですか?
          • 現在実験を行っており、将来的には数十万のサイロに拡張したい
        • TFFクライアントの数についてあなたが見た数はいくつですか?
          • デバイス上:多数の小さなデータサイロ。 x-siloは少数の大きなデータセットです
        • サイロはどれくらい似ていますか?
          • スキーマは同じですが、データの分散はサイロ間で大きく異なります。不平等な参加
      • [K] TFFは、トレーニングだけでなく推論にも使用することを考えていますか?
        • [B]現在、トレーニングにはTFFを使用しています。同じフレームワークでトレーニングと推論を行うことを好みます。
        • [K]同じインフラまたは同じモデル?
        • [b}現在、同じモデルと同じクラスター
      • [B]モデルをトレーニングしてデバイスにデプロイする方法を理解したい。
      • [S]ある環境でモデルをトレーニングし、別の環境で取り出して使用する必要があります。最初のアプリケーションではありません。
  • [B]構築したいもの:

    • 貢献のアイデアの1つは、公平性に関するベンチマークを実行したら、ツールとベンチマークをTFFに追加できることです。
      • モデルがサイロ全体でどのように機能するか(パフォーマンスとバイアスが等しくない)
    • [K]実際には問題だと思いますか? [B]実際には問題になると思います。
    • [B]これを敵対的な観点から考えてください。人々はデータを箱に入れることを心配するでしょう。それは一般的な懸念事項ですが、特定の指標はありません。
    • [K]私たちはどのことに取り組んでいますか?あなたはそれを処理する方法についてサイロと規制がある状況について話しているのですか?しかしそれは敵対的ではなく、あなたはただ偏見を作りたくないだけです。対複数の機関があり、相互に不信感を抱いている別の状況。これらの一方または両方について考えていますか?
    • [B]両方を見たい。今は後者についてのみ考えてください。
    • [D]たとえば、ここのサイロは企業であり、データセットはそれぞれによってアップロードされたデータです
    • [K]あなたはフリーロードに関する懸念を強調しています。しかし、相互に不信感を抱く当事者もいます。当事者は、他の人/あなたがデータを見るのを防ぎたいですか?これらの懸念は緊張しています。一方では、攻撃を防ぐための貢献を確認したい、他方では、プライバシーのためにコンテンツを見たくない
    • [B]2つの方法でそれを見てください。 1つは、DPなどによるプライバシーの保護です。他の部分では、モデルのパフォーマンスの観点から、多くのサイロのデータからトレーニングすると、サイロごとにメリットが異なるという懸念があります。前者にアプローチする標準的な方法があると思います。後者はもっと注意が必要です。
    • [K]モデルがうまく機能するという意味での公平性。もう1つはフリーロードできます。後者はプライバシーとの緊張が高まっています。あなたはそれについて心配していますか?
    • [B]どちらも同じように重要です。データのプライバシーを保護し、利益を公平に分配する方法を持ちたい。
    • [S]まだ良い答えはありません。 [K]同じ。
    • [D]これらの企業はLinkedInをどの程度信頼してこれを運営していますか?
    • [S]少なくとも私が知っている例では、信頼はこれまでのところ問題ではありません。いくつかの制約要求がありましたが、完全な拒否はありません。人々は私たちが共通の価値を構築するためにデータを共有することをいとわない。
    • [A]サイロだけのプライバシー、またはサイロ内の個人のプライバシーについて懸念がありますか?
    • [S]後者
  • [D]これはAzure上に構築されていますか?私たちが考える必要がある他の展開の事柄?

    • [S]最終的にはGPUが登場します。初期モデルはより小さくなり、ニーズも少なくなります。最終的には、これには多数のメンバーと企業が関与します→モデルはかなり大きくなります。
    • [D]これは公開されているのと同じ紺碧ですか?または、ターゲットとする内部インフラストラクチャで、外部からは見えません。
    • [S]かなり標準的なもの。
    • [D]誰もがパブリック紺碧で実行できるため、コラボレーションが容易になり、OSSコードの価値が高まります。
  • [K]ものを作ろう!これらはどうあるべきですか?ベンチマークスイートとクロスサイロプラットフォームについて説明しました。公共の場でPRDを具体化することについてのWDYT、機能とユースケースについて話しますか?

    • [Z]製品仕様はどのようになっていますか? TFFの小さなコンポーネント?
    • [k]コンポーネント、またはtffの上に構築して他の人が利用できる製品について話している可能性があります。
    • [Z]理解したい-これは貢献プロセスですか?製品から始めますか?
    • [k]ここでプロセスを作成しています。あなたが快適に感じる場所に依存します。
    • [Z]そのような製品の例はありますか、おそらくTFFの外ですが、TFにあります。
    • [K]TFには設計ドキュメントのプロセスがあります。これらのメモをそのようなものに変換し始めることができます。たとえば、相互に不信感を抱くサイロ、DPなどの手法を使用したい、Azureで動作する必要がある
    • [D]情報を明らかにすることなく、ユースケースのディレクトリを持つことは役に立ちます
    • [K]とにかく、TFFに存在するロードマップ、ドキュメント、ユースケースの例を作成したいので、一緒に始めることができます。小さく始める方が簡単な場合は、ぜひこれを実行してみましょう。
    • [B]FLの課題について多くの研究があります。たぶん、これらの課題に対処するためにいくつかのツールを使用して、そこから始めることができます。たとえば、フリーライディングやデータの不均一性と同様に、フェデレーション設定では一般的な課題のようです。ツールは普遍的に役立ちます。
      • [K]課題を評価するためのツール?またはシステムのコンポーネント。
      • [B]TFFが提供できる機能
      • [K]+1。 PRDから始めると、機能について話すためのコンテキストが得られますが、機能について単独で話すこともできます。たぶん、フリーロードの課題を説明し、対処するためのツールに向けて取り組むドキュメントから始めることができます。
      • [D]私たちは研究者とも協力しています。 LinkedInは、製品に加えて研究成果を生み出すことを目指していますか?
      • [Z]短期的には、まだ研究のためではありません。
  • [K]いくつかの共有ドキュメントから始めて、いくつかの機能やコンポーネントについて説明し始めることができるように思えますか?どちらの当事者も開始できます。 Googleドキュメントとメールを使用できます。デフォルトで非公開にします。

  • [ostrowski]何を構築したいのか、具体的な最初のステップは何か

    • 別の会議以上のものを目指しています-私たち自身のためのAI?
    • いくつかの特定の製品/プロジェクトの説明を開始しました
      • ベンチマークスイート
      • DP、公平性、フリーロード保護機能を備えたクロスサイロプラットフォーム
    • 可能な次のステップ
      • 製品要件ドキュメントを開始し、上記のそれぞれについてオープンに具体化しますか?
      • デザインレベルのアイデアの交換を開始しますか?
      • 実際の開発貢献の潜在的な計画は?
        • 開発したい特定のコンポーネント/機能?
    • 作成する特定のアーティファクト:
      • フリーロードの問題と、それに対処できるTFFのツールまたは機能の要件を説明する共有ドキュメント
      • データ量が等しくないサイロ全体のバイアスのベンチマークを説明する共有ドキュメント、ベンチマークで測定したいもの
      • TFFがAzureベースの環境で機能できるようにする新しいコンポーネントを定義する共有ドキュメント(統合する必要があるレイヤーのTBD)
  • [ostrowski]公然とコミュニケーションする

    • 公開するもの( GitHubランディングページ
    • この会議とフォローアップ会議からの議論と決定の要約は、GitHubページの各会議後数日以内に利用可能になります
    • 同様にGitHubで公開されるアーティファクト(作成される計画、ロードマップ、設計ドキュメントなど)へのリンク
    • 会話(チャット?)
      • スラック
    • 共通の目標:
      • 範囲内の特定の製品/コンポーネント?
      • これらの開発をサポートするための、より具体的で範囲の狭いワーキンググループの憲章?
  • [B]小さな運用上の問題に対して何をすべきか?

    • [K]SlackまたはGitHubの問題が機能する可能性があります。あなたにとって何が生産的でしょうか?
  • [ostrowski]私たちが共同でコミットできる定期的な会議のスケジュールは?

    • モンリー