FixedUnigramCandidateSampler

публичный финальный класс FixUnigramCandidateSampler

Создает метки для выборки кандидатов с изученным униграммным распределением.

Сэмплер униграмм может использовать фиксированное распределение униграмм, считанное из файла или переданное в виде массива в памяти, вместо того, чтобы создавать распределение на основе данных на лету. Существует также возможность исказить распределение, применив к весам степень искажения.

Файл словаря должен быть в формате CSV, где в последнем поле указывается вес, связанный со словом.

Для каждой партии эта операция выбирает один набор выборочных меток-кандидатов.

Преимущества отбора кандидатов для каждой партии — это простота и возможность эффективного умножения плотных матриц. Недостаток заключается в том, что выбранные кандидаты должны выбираться независимо от контекста и истинных ярлыков.

Вложенные классы

сорт ИсправленоUnigramCandidateSampler.Options Дополнительные атрибуты для FixedUnigramCandidateSampler

Константы

Нить OP_NAME Название этой операции, известное основному движку TensorFlow.

Публичные методы

статический фиксированныйUnigramCandidateSampler
create ( Область действия, Операнд <TInt64> trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)
Фабричный метод для создания класса, обертывающего новую операцию FixUnigramCandidateSampler.
статический фиксированныйUnigramCandidateSampler.Options
искажение (плавающее искажение)
статический фиксированныйUnigramCandidateSampler.Options
numReservedIds (длинное значение numReservedIds)
статический фиксированныйUnigramCandidateSampler.Options
numShards (длинное число осколков)
Вывод < TInt64 >
выбранные кандидаты ()
Вектор длиной num_sampled, в котором каждый элемент является идентификатором выбранного кандидата.
Вывод <TFloat32>
семпледожидаемый каунт ()
Вектор длиной num_sampled для каждого выбранного кандидата, представляющий ожидаемое количество раз, которое кандидат появится в пакете выбранных кандидатов.
статический фиксированныйUnigramCandidateSampler.Options
семя (длинное семя)
статический фиксированныйUnigramCandidateSampler.Options
семя2 (длинное семя2)
статический фиксированныйUnigramCandidateSampler.Options
осколок (длинный осколок)
Вывод <TFloat32>
trueExpectedCount ()
Матрица Batch_size * num_true, представляющая ожидаемое количество раз, которое каждый кандидат будет встречаться в пакете выбранных кандидатов.
статический фиксированныйUnigramCandidateSampler.Options
униграммы (List<Float> униграммы)
статический фиксированныйUnigramCandidateSampler.Options
vocabFile (Строка vocabFile)

Унаследованные методы

Константы

общедоступная статическая финальная строка OP_NAME

Название этой операции, известное основному движку TensorFlow.

Постоянное значение: «FixedUnigramCandidateSampler»

Публичные методы

общедоступный статический фиксированныйUnigramCandidateSampler create (область области действия , операнд <TInt64> trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)

Фабричный метод для создания класса, обертывающего новую операцию FixUnigramCandidateSampler.

Параметры
объем текущий объем
истинные классы Матрица Batch_size * num_true, в которой каждая строка содержит идентификаторы целевых_классов num_true в соответствующей исходной метке.
числоTrue Количество истинных меток на контекст.
numSampled Количество кандидатов для случайной выборки.
уникальный Если значение unique истинно, мы выполняем выборку с отклонением, чтобы все выбранные кандидаты в пакете были уникальными. Это требует некоторого приближения для оценки вероятностей выборки после отклонения.
диапазонМакс. Сэмплер будет выбирать целые числа из интервала [0, range_max).
параметры содержит значения необязательных атрибутов
Возврат
  • новый экземпляр FixUnigramCandidateSampler

общедоступное статическое искажение FixUnigramCandidateSampler.Options (искажение с плавающей запятой)

Параметры
искажение Искажение используется для искажения распределения вероятностей униграмм. Каждый вес сначала увеличивается до степени искажения, а затем добавляется к внутреннему распределению униграмм. В результате искажение = 1,0 дает регулярную выборку униграмм (как определено в файле словаря), а искажение = 0,0 дает равномерное распределение.

общедоступный статический фиксированныйUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

Параметры
numReservedIds При желании пользователи могут добавить некоторые зарезервированные идентификаторы в диапазоне [0, ..., num_reserved_ids). Один из вариантов использования заключается в том, что в качестве идентификатора 0 используется специальный токен неизвестного слова. Вероятность выборки этих идентификаторов будет равна 0.

общедоступный статический фиксированныйUnigramCandidateSampler.Options numShards (Long numShards)

Параметры
число осколков Сэмплер можно использовать для выборки из подмножества исходного диапазона, чтобы ускорить все вычисления за счет параллелизма. Этот параметр (вместе с «shard») указывает количество разделов, которые используются в общих вычислениях.

публичный вывод <TInt64> sampledCandidates ()

Вектор длиной num_sampled, в котором каждый элемент является идентификатором выбранного кандидата.

публичный вывод <TFloat32> sampledExpectedCount ()

Вектор длиной num_sampled для каждого выбранного кандидата, представляющий ожидаемое количество раз, которое кандидат появится в пакете выбранных кандидатов. Если unique=true, то это вероятность.

общедоступное статическое семя FixUnigramCandidateSampler.Options (длинное семя)

Параметры
семя Если для начального числа или начального числа2 задано ненулевое значение, генератор случайных чисел заполняется данным начальным числом. В противном случае он засеивается случайным семенем.

общедоступный статический фиксированныйUnigramCandidateSampler.Options семя2 (длинное семя2)

Параметры
семя2 Второе семя, чтобы избежать столкновения семян.

общедоступный статический осколок FixUnigramCandidateSampler.Options (длинный осколок)

Параметры
осколок Сэмплер можно использовать для выборки из подмножества исходного диапазона, чтобы ускорить все вычисления за счет параллелизма. Этот параметр (вместе с «num_shards») указывает конкретный номер раздела операции сэмплера, когда используется секционирование.

публичный вывод <TFloat32> trueExpectedCount ()

Матрица Batch_size * num_true, представляющая ожидаемое количество раз, которое каждый кандидат будет встречаться в пакете выбранных кандидатов. Если unique=true, то это вероятность.

общедоступные статические униграммы FixUnigramCandidateSampler.Options (униграммы List<Float>)

Параметры
униграммы Список количества или вероятностей униграмм, по одному на каждый идентификатор в последовательном порядке. В эту операцию следует передать ровно один из vocab_file и униграмм.

общедоступный статический фиксированныйUnigramCandidateSampler.Options vocabFile (String vocabFile)

Параметры
vocabFile Каждая допустимая строка в этом файле (который должен иметь формат, подобный CSV) соответствует допустимому идентификатору слова. Идентификаторы располагаются последовательно, начиная с num_reserved_ids. Ожидается, что последняя запись в каждой строке будет значением, соответствующим количеству или относительной вероятности. В эту операцию необходимо передать ровно один из vocab_file и униграмм.