Notas de la reunión del 16/02/2022 de colaboradores de TFF,Notas de la reunión de 16/02/2022 de colaboradores de TFF

  • Participantes:

    • Krzysztof Ostrowski (Google)
    • Alex Ingerman (Google)
    • De Witt Clinton (Google)
    • Boyi Chen (LinkedIn)
    • Souvik Ghosh (LinkedIn)
    • Zheng Li (LinkedIn)
  • [chen] Nuestro uso actual, áreas de interés para contribuciones, procesos sobre cómo contribuir; plan de desarrollo futuro

  • [boyi] Cómo estamos usando FL hoy

    • Dos partes - una es cross-silo
      • Datos de nuestros usuarios
      • Los requisitos legales restringen el acceso a los datos
      • FL es útil con datos 3P
      • Puede aprovechar los datos sin dejar de cumplir con la regulación
    • FL en el dispositivo: interesante, pero funciona principalmente en silos cruzados
    • Algunos proyectos que podríamos llevar a cabo
      • han estado construyendo prototipos
      • TFF es útil
      • Benchmark FL versus aprendizaje de transferencia personalizado
        • Usar los datos de los clientes para entrenar un modelo personalizado para cada cliente vs transferir aprendizaje f, compare
        • Desafíos con el funcionamiento de FL
          • Algunos clientes más grandes que otros -> sesgo
          • Los clientes que más contribuyen están preocupados por los oportunistas; los clientes con menos datos están preocupados por no influir lo suficiente en el modelo
        • Desafíos de escalabilidad
          • Ahora mismo para inferencia (cientos de M)
          • Los datos de entrenamiento no son tan grandes actualmente (10s-100sK/silos)
          • Ejecución de inferencia por lotes en O (cientos de M) clientes
          • El volumen total de datos como principal desafío
            • Registros en todos los clientes
          • El tamaño del clúster ahora es limitado, lo que limita la tasa de inferencia
        • Cliente = silo que no necesita mezclar los datos con otros silos. ¿Qué es la cardinalidad?
          • Haciendo experimentos ahora, quiero escalar a cientos de miles de silos en el futuro
        • ¿Cuál es el número que ha visto para # de clientes TFF?
          • En el dispositivo: gran cantidad de pequeños silos de datos; x-silo es una pequeña cantidad de grandes conjuntos de datos
        • ¿Qué tan similares son los silos?
          • Los esquemas son los mismos, pero la distribución de datos difiere mucho entre los silos. Participación desigual
      • [K] ¿Estás pensando en TFF tanto para inferencia como para entrenamiento?
        • [B] En este momento, usa TFF para entrenar; preferiría entrenar e inferir en el mismo marco.
        • [K] ¿La misma infraestructura o los mismos modelos?
        • [b} ahora mismo, mismo modelo y mismo grupo
      • [B] Quiere saber cómo entrenar modelos e implementarlos en dispositivos.
      • [S] La necesidad de entrenar modelos en un entorno, sacarlos y usarlos en otro entorno es importante. Simplemente no con la primera aplicación.
  • [B] Lo que queremos construir:

    • Una idea para contribuir, una vez que hagamos puntos de referencia sobre equidad, podemos agregar herramientas y puntos de referencia en TFF
      • Cómo funciona el modelo entre silos (rendimiento desigual y sesgo)
    • [K] ¿Lo ves como un problema en la práctica? [B] Creemos que será un problema en la práctica.
    • [B] Piense en esto desde una perspectiva contradictoria. La gente estará preocupada por poner datos en la caja. Es una preocupación general, pero no tenemos una métrica en particular.
    • [K] ¿A qué cosa nos estamos dirigiendo? ¿Está hablando de una situación en la que hay silos + regulaciones sobre cómo procesarlo, pero no es contradictorio, simplemente no quiere crear sesgo? contra otra situación donde hay múltiples instituciones, partes que desconfían mutuamente. ¿Estamos pensando en uno o en ambos?
    • [B] Queremos ver ambos; Ahora mismo solo piensa en esto último.
    • [D] por ejemplo, silo aquí hay empresas, y los conjuntos de datos son datos cargados por cada uno
    • [K] Estás destacando preocupaciones sobre el aprovechamiento gratuito. Pero también hay partes que desconfían mutuamente. ¿Quieren las partes evitar que otros/usted vean los datos? Estas preocupaciones están en tensión. Por un lado, quiero verificar la contribución para prevenir ataques, por otro lado, no quiero ver los contenidos, por privacidad.
    • [B] Míralo de 2 maneras. Una es la preservación de la privacidad, a través de DP, etc. Otra parte, desde la perspectiva del rendimiento del modelo, cuando se entrena a partir de datos de muchos silos, existe la preocupación de que los diferentes silos se beneficien de manera diferente. Creemos que hay una forma estándar de abordar la primera; este último es más complicado.
    • [K] Equidad en el sentido de que el modelo funciona bien; otro puede ser aprovechado. Es este último el que está más en tensión con la privacidad. ¿Estás preocupado por eso?
    • [B] Ambos son igualmente importantes. Quiere proteger la privacidad de los datos y tener una forma justa de distribuir los beneficios.
    • [S] Aún no tenemos buenas respuestas. [K] Lo mismo.
    • [D] ¿Cuánto confían estas empresas en Linkedin para operar esto?
    • [S] La confianza no ha sido un problema hasta ahora, al menos en los ejemplos que conozco. Hemos recibido algunas solicitudes de restricciones, pero no hemos recibido negativas rotundas. Las personas están dispuestas a compartir los datos para que construyamos un valor común.
    • [A] ¿Preocupación por la privacidad de los silos o de las personas dentro de los silos?
    • [S] Este último
  • [D] ¿Se está construyendo en Azure? ¿Otras cosas de implementación en las que debemos pensar?

    • [S] Con el tiempo, aparecerán las GPU; Los modelos iniciales serán más pequeños y tendrán menos necesidades. Eventualmente, esto involucrará una gran cantidad de miembros y empresas → los modelos crecerán bastante.
    • [D] ¿Es este el mismo azul que está disponible públicamente? O algún infrarrojo interno al objetivo, que no es visible afuera.
    • [S] Cosas bastante estándar.
    • [D] Facilita la colaboración, hace que el código OSS sea más valioso, ya que todos pueden ejecutarlo en Azure público.
  • [K] ¡Hagamos cosas! ¿Cuáles deberían ser estos? Mencionamos la suite de referencia y la plataforma entre silos. WDYT sobre desarrollar un PRD en el público, hablar sobre características y casos de uso?

    • [Z] ¿Cómo son las especificaciones del producto? ¿Pequeños componentes en TFF?
    • [k] Podríamos estar hablando de componentes o de un producto que se puede construir sobre tff y estar disponible para otros.
    • [Z] Quiero entender: ¿es este el proceso de contribución? ¿Comenzar con el producto?
    • [k] estamos haciendo el proceso aquí. Depende de donde te sientas cómodo.
    • [Z] ¿Tiene ejemplos de tales productos, tal vez fuera de TFF pero en TF?
    • [K] TF tiene un proceso para documentos de diseño. Podemos comenzar a transformar estas notas en algo así. Por ejemplo, silos, desconfianza mutua, quiere usar técnicas como DP, necesita trabajar en Azure
    • [D] Tener un directorio de casos de uso es útil, sin revelar información
    • [K] Queremos desarrollar una hoja de ruta, documentos, ejemplos de casos de uso que existirán en TFF de todos modos, podemos comenzar juntos. Si empezar poco a poco es más fácil, por supuesto, hagámoslo.
    • [B] Veo muchas investigaciones sobre los desafíos en FL. Tal vez podamos tomar algunas herramientas para abordar estos desafíos y comenzar allí. Por ejemplo, similar al free-riding, la heterogeneidad de los datos parece un desafío común en entornos federados. Las herramientas serán útiles universalmente.
      • [K] ¿Herramientas para evaluar desafíos? O componentes del sistema.
      • [B] Funcionalidad que TFF puede proporcionar
      • [K] +1. Comenzar con PRD brinda contexto para hablar de características, pero también podemos hablar de características de forma aislada. Tal vez podamos comenzar con un documento que describa el desafío de carga gratuita y trabaje hacia las herramientas para enfrentarlo.
      • [D] También trabajamos con investigadores. ¿Tiene LinkedIn como objetivo generar resultados de investigación además del producto?
      • [Z] A corto plazo, aún no para investigación.
  • [K] ¿Parece que podemos comenzar con algunos documentos compartidos, comenzar a describir algunas características o componentes? Cualquiera de las partes puede iniciar. Podemos usar google docs y correo electrónico. Vamos por defecto a en público.

  • [ostrowski] Lo que nos gustaría construir y qué primeros pasos concretos podemos dar

    • Con el objetivo de algo más que otra reunión: ¿IA para nosotros?
    • Hemos comenzado a describir algunos productos/proyectos específicos
      • Suite de referencia
      • Plataforma de silo cruzado con DP, equidad, protecciones de carga libre
    • Posibles próximos pasos
      • ¿Comenzar un documento de requisitos del producto y desarrollarlo abiertamente para cada uno de los anteriores?
      • ¿Comenzar a intercambiar ideas a nivel de diseño?
      • ¿Planes potenciales para contribuciones reales al desarrollo?
        • ¿Componentes/características específicas que le gustaría desarrollar?
    • Artefactos específicos para crear:
      • Documento compartido que describe el problema de carga gratuita y los requisitos de una herramienta o función en TFF que podría solucionarlo
      • Documento compartido que describe los puntos de referencia para el sesgo en silos con cantidades desiguales de datos, lo que nos gustaría que midiera el punto de referencia
      • Documento compartido que define un nuevo componente que permitiría que TFF funcione en un entorno basado en Azure (TBD con qué capa necesitaría integrarse)
  • [ostrowski] Comunicarse abiertamente

    • Qué poner a disposición del público (en la página de inicio de GitHub )
    • El resumen de las discusiones y decisiones de esta y las reuniones de seguimiento estará disponible unos días después de cada reunión en la página de GitHub
    • Enlaces a artefactos (cualquier plan, hoja de ruta, documentos de diseño, etc. que se crearán) que también se publicarán en GitHub
    • Conversaciones (¿chat?)
      • Flojo
    • Objetivos compartidos:
      • ¿Productos/componentes específicos dentro del alcance?
      • Carta para un grupo de trabajo más específico / de alcance limitado para apoyar el desarrollo de estos?
  • [B] ¿Qué hacer con los pequeños problemas operativos?

    • [K] Los problemas de Slack o GitHub podrían funcionar. ¿Qué sería productivo para ti?
  • [ostrowski] ¿Calendario de reuniones recurrentes con el que podemos comprometernos conjuntamente?

    • Mensual