Universal Sentence EncoderSentEvalデモ

TensorFlow.orgで表示 GoogleColabで実行 GitHubで表示 ノートブックをダウンロードTFハブモデルを参照してください

このコラボはdemostratesユニバーサル文エンコーダCMLMモデル使用SentEval文の埋め込みの品質を測定するためのライブラリであるツールキットを、。 SentEvalツールキットには、埋め込みモデルの一般化能力を評価し、エンコードされた言語プロパティを評価できる、さまざまなダウンストリームタスクのセットが含まれています。

最初の2つのコードブロックを実行して環境をセットアップします。3番目のコードブロックでSentEvalタスクを選択してモデルを評価できます。このColabを実行するには、GPUランタイムをお勧めします。

より多くのユニバーサル文エンコーダCMLMモデルについて学習するには、参照https://openreview.net/forum?id=WDVD4lUCTzU

依存関係をインストールする

SentEvalとタスクデータをダウンロードする

このステップでは、githubからSentEvalをダウンロードし、データスクリプトを実行してタスクデータをダウンロードします。完了するまでに最大5分かかる場合があります。

SentEvalをインストールし、タスクデータをダウンロードします

Cloning into 'SentEval'...
remote: Enumerating objects: 691, done.[K
remote: Counting objects: 100% (2/2), done.[K
remote: Compressing objects: 100% (2/2), done.[K
remote: Total 691 (delta 0), reused 0 (delta 0), pack-reused 689[K
Receiving objects: 100% (691/691), 33.25 MiB | 24.57 MiB/s, done.
Resolving deltas: 100% (434/434), done.

SentEval評価タスクを実行します

次のコードブロックは、SentEvalタスクを実行して結果を出力し、次のタスクのいずれかを選択してUSECMLMモデルを評価します。

MR  CR  SUBJ    MPQA    SST TREC    MRPC    SICK-E

実行するモデル、パラメーター、およびタスクを選択します。ラピッドプロトタイピングパラメータは、計算時間を短縮して結果を高速化するために使用できます。

それは、典型的には、「ラピッドプロトタイピング」のparamsと「遅くなり、最高のパフォーマンス」のparamsとの時間までにタスクを完了するために5〜15分かかります。

params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
                                 'tenacity': 3, 'epoch_size': 2}

より良い結果のために、計算は1に最大1時間かかる場合があり、遅く「遅くなり、最高のパフォーマンス」のparamsを使用します。

params = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
                                 'tenacity': 5, 'epoch_size': 6}
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'

import sys
sys.path.append(f'{os.getcwd()}/SentEval')

import tensorflow as tf

# Prevent TF from claiming all GPU memory so there is some left for pytorch.
gpus = tf.config.list_physical_devices('GPU')
if gpus:
  # Memory growth needs to be the same across GPUs.
  for gpu in gpus:
    tf.config.experimental.set_memory_growth(gpu, True)

import tensorflow_hub as hub
import tensorflow_text
import senteval
import time

PATH_TO_DATA = f'{os.getcwd()}/SentEval/data'
MODEL = 'https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1'
PARAMS = 'rapid prototyping'
TASK = 'CR'

params_prototyping = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 5}
params_prototyping['classifier'] = {'nhid': 0, 'optim': 'rmsprop', 'batch_size': 128,
                                 'tenacity': 3, 'epoch_size': 2}

params_best = {'task_path': PATH_TO_DATA, 'usepytorch': True, 'kfold': 10}
params_best['classifier'] = {'nhid': 0, 'optim': 'adam', 'batch_size': 16,
                                 'tenacity': 5, 'epoch_size': 6}

params = params_best if PARAMS == 'slower, best performance' else params_prototyping

preprocessor = hub.KerasLayer(
    "https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/3")
encoder = hub.KerasLayer(
    "https://tfhub.dev/google/universal-sentence-encoder-cmlm/en-base/1")

inputs = tf.keras.Input(shape=tf.shape(''), dtype=tf.string)
outputs = encoder(preprocessor(inputs))

model = tf.keras.Model(inputs=inputs, outputs=outputs)

def prepare(params, samples):
    return

def batcher(_, batch):
    batch = [' '.join(sent) if sent else '.' for sent in batch]
    return model.predict(tf.constant(batch))["default"]


se = senteval.engine.SE(params, batcher, prepare)
print("Evaluating task %s with %s parameters" % (TASK, PARAMS))
start = time.time()
results = se.eval(TASK)
end = time.time()
print('Time took on task %s : %.1f. seconds' % (TASK, end - start))
print(results)
Evaluating task CR with rapid prototyping parameters
Time took on task CR : 48.7. seconds
{'devacc': 90.42, 'acc': 88.98, 'ndev': 3775, 'ntest': 3775}

もっと詳しく知る

参照