Skipgram

सार्वजनिक अंतिम कक्षा स्किपग्राम

एक टेक्स्ट फ़ाइल को पार्स करता है और उदाहरणों का एक बैच बनाता है।

नेस्टेड क्लासेस

कक्षा स्किपग्राम.विकल्प Skipgram के लिए वैकल्पिक विशेषताएँ

सार्वजनिक तरीके

स्थैतिक स्किपग्राम
बनाएं ( स्कोप स्कोप, स्ट्रिंग फ़ाइल नाम, लंबा बैच आकार, विकल्प... विकल्प)
एक नए स्किपग्राम ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।
आउटपुट <पूर्णांक>
वर्तमान युग ()
वर्तमान युग संख्या.
आउटपुट <पूर्णांक>
उदाहरण ()
शब्द आईडी का एक वेक्टर.
आउटपुट <पूर्णांक>
लेबल ()
शब्द आईडी का एक वेक्टर.
स्थिर स्किपग्राम.विकल्प
न्यूनतम गणना (लंबी न्यूनतम गणना)
स्थिर स्किपग्राम.विकल्प
उपनमूना (फ्लोट उपनमूना)
आउटपुट <लंबा>
कुलशब्दसंसाधित ()
अब तक संसाधित शब्दों की कुल संख्या.
आउटपुट <पूर्णांक>
शब्दावलीआवृत्ति ()
शब्दों की आवृत्ति.
आउटपुट <स्ट्रिंग>
शब्दावलीशब्द ()
कोष में शब्दों का एक सदिश.
स्थिर स्किपग्राम.विकल्प
खिड़की का आकार (लंबी खिड़की का आकार)
आउटपुट <लंबा>
शब्द प्रति युग ()
डेटा फ़ाइल में प्रति युग शब्दों की संख्या.

विरासत में मिली विधियाँ

सार्वजनिक तरीके

सार्वजनिक स्थैतिक स्किपग्राम बनाएं ( स्कोप स्कोप, स्ट्रिंग फ़ाइल नाम, लंबा बैच आकार, विकल्प... विकल्प)

एक नए स्किपग्राम ऑपरेशन को लपेटकर एक क्लास बनाने की फ़ैक्टरी विधि।

पैरामीटर
दायरा वर्तमान दायरा
फ़ाइल का नाम कॉर्पस का टेक्स्ट फ़ाइल नाम.
बैच का आकार उत्पादित बैच का आकार.
विकल्प वैकल्पिक गुण मान रखता है
रिटर्न
  • स्किपग्राम का एक नया उदाहरण

सार्वजनिक आउटपुट <पूर्णांक> currentEpoch ()

वर्तमान युग संख्या.

सार्वजनिक आउटपुट <पूर्णांक> उदाहरण ()

शब्द आईडी का एक वेक्टर.

सार्वजनिक आउटपुट <पूर्णांक> लेबल ()

शब्द आईडी का एक वेक्टर.

सार्वजनिक स्थैतिक स्किपग्राम.विकल्प न्यूनतम गणना (लंबी न्यूनतम गिनती)

पैरामीटर
न्यूनतम गिनती इसे शब्दावली में शामिल करने के लिए शब्दों की न्यूनतम संख्या।

सार्वजनिक स्थैतिक Skipgram.Options उपनमूना (फ्लोट उपनमूना)

पैरामीटर
उपनमूना शब्द घटना के लिए सीमा. उच्च आवृत्ति के साथ दिखाई देने वाले शब्दों को यादृच्छिक रूप से डाउन-सैंपल किया जाएगा। अक्षम करने के लिए 0 पर सेट करें.

सार्वजनिक आउटपुट <लंबा> totalWordsProcessed ()

अब तक संसाधित शब्दों की कुल संख्या.

सार्वजनिक आउटपुट <पूर्णांक> शब्दावली फ़्रीक ()

शब्दों की आवृत्ति. गैर-आरोही क्रम में क्रमबद्ध।

सार्वजनिक आउटपुट <स्ट्रिंग> वोकैबवर्ड ()

कोष में शब्दों का एक सदिश.

सार्वजनिक स्थैतिक Skipgram.विकल्प विंडो आकार (लंबा विंडो आकार)

पैरामीटर
खिड़की का आकार लक्ष्य के बायीं और दायीं ओर भविष्यवाणी करने के लिए शब्दों की संख्या।

सार्वजनिक आउटपुट <लंबा> शब्द प्रति युग ()

डेटा फ़ाइल में प्रति युग शब्दों की संख्या.