نماذج اللغة Wiki40B

عرض على TensorFlow.org تشغيل في Google Colab عرض على جيثب تحميل دفتر انظر نماذج TF Hub

توليد ويكيبيديا مثل النص باستخدام نماذج لغة Wiki40B من TensorFlow المحور !

يوضح هذا الكمبيوتر الدفتري كيفية:

  • تحميل أحادي 41 و 2 نماذج لغة متعددة اللغات التي هي جزء من مجموعة Wiki40b-LM على TF-المحور
  • استخدم النماذج للحصول على الارتباك ، وعمليات التنشيط لكل طبقة ، ودمج الكلمات لجزء معين من النص
  • أنشئ نصًا رمزًا برمزًا مميزًا من جزء من نص أولي

ويتم تدريب نماذج اللغة على نشر حديثا، تنظيف المتابعة Wiki40B مجموعة البيانات المتوفرة على TensorFlow مجموعات البيانات. ويستند إعداد تدريب على ورقة "ويكي-40B: متعدد اللغات اللغة نموذج الإدراجات" .

يثبت

تثبيت التبعيات

الواردات

اختر اللغة

دعونا اختيار النموذج الذي لغة لتحميل من TF-Hub و طول النص المراد إنشاؤها.

Using the https://tfhub.dev/google/wiki40b-lm-en/1 model to generate sequences of max length 20.

بناء النموذج

حسنا، الآن بعد أن قمنا تكوين الذي قبل المدربين نموذج الاستخدام، دعونا تكوين لتوليد النص حتى max_gen_len . سنحتاج إلى تحميل نموذج اللغة من TF-Hub ، وإدخال جزء من نص البداية ، ثم إدخال الرموز المميزة بشكل متكرر عند إنشائها.

قم بتحميل نموذج اللغة

2021-11-05 13:33:19.950673: W tensorflow/core/common_runtime/graph_constructor.cc:1511] Importing a graph with a lower producer version 359 into an existing graph with producer version 808. Shape inference will have run different parts of the graph with different producer versions.

أنشئ الرسم البياني لتوليد كل رمز

بناء على الرسم البياني بسطه بشكل ثابت ل max_gen_len الرموز

قم بإنشاء بعض النصوص

دعونا ننشئ بعض النصوص! سنقوم إعداد نص seed للمطالبة نموذج لغة.

يمكنك استخدام واحدة من بذور مسبقا أو اختياريا إدخال بنفسك. سيتم استخدام هذا النص كنموذج أساسي لنموذج اللغة للمساعدة في توجيه نموذج اللغة لما سيتم إنشاؤه بعد ذلك.

يمكنك استخدام الرموز المميزة التالية التي تسبق الأجزاء الخاصة من المقالة التي تم إنشاؤها. استخدام _START_ARTICLE_ للإشارة إلى بداية المقال، _START_SECTION_ للإشارة إلى بداية القسم، و _START_PARAGRAPH_ لتوليد النص في المادة

بذور مسبقة التحديد

أدخل البذور الخاصة بك (اختياري).

Generating text from seed:

_START_ARTICLE_
1882 Prince Edward Island general election
_START_PARAGRAPH_
The 1882 Prince Edward Island election was held on May 8, 1882 to elect members of the House of Assembly of the province of Prince Edward Island, Canada.

بدء الجلسة.

توليد نص

_START_SECTION_ Candidates _START_PARAGRAPH_ Thirteen members of the House of Assembly were all members nominations. Among

يمكننا أيضًا إلقاء نظرة على المخرجات الأخرى للنموذج - الارتباك ، ومعرفات الرمز المميز ، والتنشيطات الوسيطة ، والزفافات

ppl_result
array([23.507753], dtype=float32)
token_ids_result
array([[   8,    3, 6794, 1579, 1582,  721,  489,  448,    8,    5,   26,
        6794, 1579, 1582,  721,  448,   17,  245,   22,  166, 2928, 6794,
          16, 7690,  384,   11,    7,  402,   11, 1172,   11,    7, 2115,
          11, 1579, 1582,  721,    9,  646,   10]], dtype=int32)
activations_result.shape
(12, 1, 39, 768)
embeddings_result
array([[[ 0.12262525,  5.548009  ,  1.4743135 , ...,  2.4388404 ,
         -2.2788858 ,  2.172028  ],
        [-2.3905468 , -0.97108954, -1.5513545 , ...,  8.458472  ,
         -2.8723319 ,  0.6534524 ],
        [-0.83790785,  0.41630274, -0.8740793 , ...,  1.6446769 ,
         -0.9074106 ,  0.3339265 ],
        ...,
        [-0.8054745 , -1.2495526 ,  2.6232922 , ...,  2.893288  ,
         -0.91287214, -1.1259722 ],
        [ 0.64944506,  3.3696785 ,  0.09543293, ..., -0.7839227 ,
         -1.3573489 ,  1.862214  ],
        [-1.2970612 ,  0.5961366 ,  3.3531897 , ...,  3.2853985 ,
         -1.6212384 ,  0.30257902]]], dtype=float32)