راهنمای پردازش متن TensorFlow

راهنمای پردازش متن TensorFlow کتابخانه‌ها و گردش‌های کاری برای پردازش زبان طبیعی (NLP) را مستند می‌کند و مفاهیم مهمی را برای کار با متن معرفی می‌کند.

KerasNLP

KerasNLP یک کتابخانه پردازش زبان طبیعی (NLP) سطح بالا است که شامل تمام آخرین مدل‌های مبتنی بر ترانسفورماتور و همچنین ابزارهای توکن‌سازی سطح پایین‌تر است. این راه حل توصیه شده برای اکثر موارد استفاده از NLP است.

  • شروع کار با KerasNLP : KerasNLP را با انجام تجزیه و تحلیل احساسات در سطوح پیچیدگی تدریجی، از استفاده از یک مدل از پیش آموزش دیده تا ساخت ترانسفورماتور خود از ابتدا یاد بگیرید.

tf.strings

ماژول tf.strings عملیاتی را برای کار با تانسورهای رشته ارائه می کند.

  • رشته‌های یونیکد : رشته‌های یونیکد را در TensorFlow نشان می‌دهند و آنها را با استفاده از معادل‌های یونیکد عملیات‌های رشته استاندارد دستکاری می‌کنند.

متن TensorFlow

اگر نیاز به دسترسی به ابزارهای پردازش متن سطح پایین دارید، می توانید از TensorFlow Text استفاده کنید. TensorFlow Text مجموعه‌ای از عملیات‌ها و کتابخانه‌ها را فراهم می‌کند تا به شما در کار با ورودی به شکل متنی مانند رشته‌های متن خام یا اسناد کمک کند.

پیش پردازش

  • پیش پردازش BERT با TF Text : از عملیات پیش پردازش متن TensorFlow برای تبدیل داده های متنی به ورودی برای BERT استفاده کنید.
  • Tokenization با TF Text : گزینه های توکن سازی ارائه شده توسط TensorFlow Text را درک کنید. بیاموزید که چه زمانی ممکن است بخواهید از یک گزینه نسبت به گزینه دیگر استفاده کنید، و چگونه این توکنایزرها از داخل مدل شما فراخوانی می شوند.
  • توکنایزرهای زیرکلمه : واژگان زیرکلمه ای را از مجموعه داده ایجاد کنید و از آن برای ساختن یک متن استفاده کنید text.BertTokenizer از واژگان.

مدل های TensorFlow - NLP

کتابخانه TensorFlow Models - NLP، اولیه‌های Keras را ارائه می‌کند که می‌توانند در مدل‌های مبتنی بر ترانسفورماتور مونتاژ شوند، و کلاس‌های داربست که آزمایش آسان با معماری‌های جدید را امکان‌پذیر می‌سازد.