Участники:
- Кшиштоф Островский (Google)
- Алекс Ингерман (Google)
- ДеВитт Клинтон (Google)
- Бойи Чен (LinkedIn)
- Сувик Гош (LinkedIn)
- Чжэн Ли (LinkedIn)
[chen] Наше текущее использование, области интересов для вкладов, процессы о том, как внести свой вклад; план будущего развития
[boyi] Как мы используем FL сегодня
- Две части - одна кросс-бункерная
- Данные наших пользователей
- Правовые требования ограничивают доступ к данным
- FL удобен с данными 3P
- Может использовать данные, оставаясь при этом в соответствии с законодательством
- FL на устройстве — интересно, но в основном работает на разных платформах.
- Несколько проектов, которые мы могли бы реализовать
- Делали прототипы
- ТФФ пригодится
- Benchmark FL в сравнении с персонализированным трансферным обучением
- Использование данных клиентов для обучения персонализированной модели для каждого клиента по сравнению с трансферным обучением f, сравните
- Проблемы с тем, как работает FL
- Некоторые клиенты крупнее других -> предвзятость
- Клиенты, вносящие наибольший вклад, беспокоятся о безбилетниках; клиенты с наименьшим количеством данных беспокоятся о недостаточном влиянии на модель
- Проблемы масштабируемости
- Прямо сейчас для вывода (сотни M)
- Учебные данные в настоящее время не такие большие (10s-100sK / бункеры)
- Запуск вывода в пакетном режиме по O (сотням M) клиентам
- Общий объем данных как основная проблема
- Записи по всем клиентам
- Размер кластера теперь ограничен, что ограничивает скорость вывода
- Клиент = хранилище, данные которого не должны смешиваться с другими хранилищами. Что такое кардинальность?
- Проводим эксперименты сейчас, хотим масштабироваться до сотен тысяч бункеров в будущем
- Какое количество клиентов TFF вы видели?
- На устройстве: большое количество небольших хранилищ данных; x-silo — это небольшое количество больших наборов данных
- Насколько похожи силосы?
- Схемы одинаковы, но распределение данных сильно различается по хранилищам. Неравное участие
- [K] Вы думаете о TFF не только для обучения, но и для логического вывода?
- [B] Прямо сейчас используйте TFF для обучения; предпочел бы тренироваться и делать выводы на одной и той же основе.
- [K] Та же инфраструктура или те же модели?
- [b} прямо сейчас, та же модель и тот же кластер
- [B] Хотите понять, как обучать модели и развертывать их на устройствах.
- [S] Необходимость обучать модели в одной среде, вынимать и использовать в другой среде очень важна. Только не с первого применения.
- Две части - одна кросс-бункерная
[B] Что мы хотим построить:
- Одна идея для вклада: как только мы проведем тесты справедливости, мы сможем добавить инструменты и тесты в TFF.
- Как модель работает в разрозненных условиях (неравная производительность и предвзятость)
- [K] Вы видите в этом проблему на практике? [B] Мы считаем, что это будет проблемой на практике.
- [B] Подумайте об этом с точки зрения противника. Люди будут обеспокоены помещением данных в коробку. Это общая проблема, но у нас нет конкретной метрики.
- [K] К чему мы обращаемся? Вы говорите о ситуации, когда есть бункеры + правила о том, как это обрабатывать, но это не враждебно, вы просто не хотите создавать предвзятость. Против. другая ситуация, когда существует несколько институтов, взаимно не доверяющих сторонам. Думаем ли мы об одном из них или об обоих?
- [B] Мы хотим посмотреть на оба; сейчас думаю только о последнем.
- [D] например, разрозненность здесь — это компании, а наборы данных — это данные, загруженные каждой
- [K] Вы подчеркиваете опасения по поводу халявы. Но есть и взаимно не доверяющие стороны. Стороны хотят, чтобы другие/вас не видели данные? Эти опасения находятся в напряжении. С одной стороны, вы хотите проверить вклад для предотвращения атак, а с другой стороны, не хотите видеть содержимое для конфиденциальности.
- [B] Посмотрите на это с двух сторон. Одним из них является сохранение конфиденциальности - с помощью DP и т. Д. Другая часть, с точки зрения производительности модели, при обучении на данных из многих хранилищ возникает опасение, что разные хранилища получают разные преимущества. Мы думаем, что есть стандартный подход к первому; последний сложнее.
- [K] Справедливость в том смысле, что модель работает хорошо; другой может быть халявным. Это последнее, что больше напрягает с конфиденциальностью. Вас это беспокоит?
- [B] Оба одинаково важны. Хотите защитить конфиденциальность данных и иметь честный способ распределения преимуществ.
- [S] У нас пока нет хороших ответов. [К] То же самое.
- [D] Насколько эти компании доверяют LinkedIn в управлении этим?
- [S] Доверие не было проблемой до сих пор, по крайней мере, в известных мне примерах. У нас были некоторые запросы на ограничения, но не было категорических отказов. Люди готовы делиться данными, чтобы мы создавали общую ценность.
- [A] Обеспокоены конфиденциальностью отдельных групп или отдельных лиц?
- [С] Последний
- Одна идея для вклада: как только мы проведем тесты справедливости, мы сможем добавить инструменты и тесты в TFF.
[D] Это строится на Azure? О других вещах развертывания, о которых нам нужно подумать?
- [S] В конце концов появятся графические процессоры; первоначальные модели будут меньше и иметь меньше потребностей. В конце концов, это вовлечет большое количество участников и предприятий → модели вырастут довольно большими.
- [D] Это тот самый лазурь, что есть в открытом доступе? Или какая-то внутренняя инфа, которая не видна снаружи.
- [S] Довольно стандартные вещи.
- [D] Упрощает совместную работу, делает код OSS более ценным, поскольку каждый может запускать его на общедоступной платформе Azure.
[K] Давайте делать вещи! Что это должно быть? Мы упомянули набор эталонных тестов и межплатформенную платформу. WDYT о публичном раскрытии PRD, расскажите о функциях и вариантах использования?
- [Z] Как выглядит спецификация продукта? Мелкие компоненты в TFF?
- [k] мы могли бы говорить о компонентах или о продукте, который можно построить поверх tff и сделать доступным для других.
- [Z] Я хочу понять - это процесс вклада? Начать с продукта?
- [k] мы делаем процесс здесь. Зависит от того, где вы чувствуете себя комфортно.
- [Z] У вас есть примеры таких продуктов, может быть вне TFF, но в TF.
- [K] В TF есть процесс оформления документов. Мы можем начать преобразовывать эти заметки во что-то подобное. Например, бункеры, взаимное недоверие, хотят использовать такие методы, как DP, должны работать в Azure.
- [D] Полезно иметь каталог вариантов использования, не раскрывая информацию
- [K] Мы хотим разработать дорожную карту, документы, примеры вариантов использования, которые в любом случае будут существовать в TFF, мы можем начать вместе. Если начинать с малого проще, то давайте сделаем это.
- [B] Я вижу много исследований о проблемах в FL. Может быть, мы можем взять несколько инструментов для решения этих проблем и начать с этого. Например, неоднородность данных, похожая на безбилетник, кажется распространенной проблемой в федеративных условиях. Инструменты будут полезны повсеместно.
- [K] Инструменты для оценки проблем? Или компоненты системы.
- [B] Функциональность, которую может предоставить TFF
- [К] +1. Начало с PRD дает контекст для обсуждения функций, но мы также можем говорить о функциях изолированно. Может быть, мы можем начать с документа, который описывает проблему с халявной загрузкой и работает над инструментами для решения.
- [D] Мы также работаем с исследователями. LinkedIn стремится генерировать результаты исследований в дополнение к продукту?
- [Z] В краткосрочной перспективе, пока не для исследований.
[K] Похоже, мы можем начать с нескольких общих документов, начать описывать некоторые функции или компоненты? Любая сторона может инициировать. Мы можем использовать документы Google и электронную почту. Позволяет по умолчанию в общедоступном.
[ostrowski] Что мы хотели бы построить и какие конкретные первые шаги мы можем сделать
- Стремление к чему-то большему, чем просто еще одна встреча — ИИ для себя?
- Мы начали описывать несколько конкретных продуктов/проектов
- Эталонный набор
- Кросс-бункерная платформа с DP, справедливостью, защитой от бесплатной загрузки
- Возможные следующие шаги
- Начать документ с требованиями к продукту и открыто дополнить его для каждого из вышеперечисленных?
- Начать обмен идеями на уровне дизайна?
- Потенциальные планы по фактическому вкладу в развитие?
- Конкретные компоненты/функции, которые вы хотели бы разработать?
- Конкретные артефакты для создания:
- Общий документ, описывающий проблему с бесплатной загрузкой и требования к инструменту или функции в TFF, которые могли бы ее решить.
- Общий документ, описывающий эталонные показатели предвзятости между разрозненными хранилищами с неравным объемом данных, что мы хотели бы, чтобы эталонный показатель измерял.
- Общий документ, определяющий новый компонент, который позволит TFF функционировать в среде на базе Azure (подлежит уточнению, с каким уровнем его необходимо будет интегрировать).
[Островски] Открытое общение
- Что сделать общедоступным (на целевой странице GitHub )
- Резюме обсуждений и решений, принятых на этой и последующих встречах, будет доступно в течение нескольких дней после каждой встречи на странице GitHub.
- Ссылки на артефакты (любые планы, дорожные карты, проектные документы и т. д., которые будут созданы) также для публикации на GitHub.
- Разговоры (чат?)
- Слабый
- Общие цели:
- Конкретные продукты/компоненты в объеме?
- Устав для более конкретной / узкой рабочей группы для поддержки их разработки?
[B] Что делать с небольшими оперативными проблемами?
- [K] Проблемы со Slack или GitHub могут работать. Что было бы для вас продуктивным?
[ostrowski] Периодический график встреч, который мы можем согласовать?
- Монти
Заметки с встречи участников TFF от 16 февраля 2022 г.
Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons "С указанием авторства 4.0", а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.
Последнее обновление: 2025-07-25 UTC.
[[["Прост для понимания","easyToUnderstand","thumb-up"],["Помог мне решить мою проблему","solvedMyProblem","thumb-up"],["Другое","otherUp","thumb-up"]],[["Отсутствует нужная мне информация","missingTheInformationINeed","thumb-down"],["Слишком сложен/слишком много шагов","tooComplicatedTooManySteps","thumb-down"],["Устарел","outOfDate","thumb-down"],["Проблема с переводом текста","translationIssue","thumb-down"],["Проблемы образцов/кода","samplesCodeIssue","thumb-down"],["Другое","otherDown","thumb-down"]],["Последнее обновление: 2025-07-25 UTC."],[],[]]