सहायता Kaggle पर TensorFlow साथ ग्रेट बैरियर रीफ की रक्षा चैलेंज में शामिल हों

टेंसरफ़्लो :: ऑप्स :: फिक्स्डयूनिग्रामक्रमिडेटसम्प्लर

#include <candidate_sampling_ops.h>

एक सीखा हुआ यूग्रीग्राम वितरण के साथ उम्मीदवार के नमूने के लिए लेबल तैयार करता है।

सारांश

एक यूनीग्राम नमूना किसी फ़ाइल से पढ़े गए एक निश्चित यूनिग्राम वितरण का उपयोग कर सकता है या फ्लाई पर डेटा से वितरण के निर्माण के बजाय इन-मेमोरी सरणी के रूप में पारित हो सकता है। वज़न पर विकृति शक्ति लागू करके वितरण को तिरछा करने का एक विकल्प भी है।

शब्दावली फ़ाइल सीएसवी-जैसे प्रारूप में होनी चाहिए, जिसमें अंतिम क्षेत्र शब्द के साथ जुड़ा हुआ है।

प्रत्येक बैच के लिए, यह ऑप नमूना उम्मीदवारों के एकल सेट का चयन करता है।

प्रति-बैच के उम्मीदवारों के नमूने की सादगी और कुशल घने मैट्रिक्स गुणन की संभावना है। नुकसान यह है कि सैंपल किए गए अभ्यर्थियों को स्वतंत्र रूप से और सच्चे लेबल के लिए चुना जाना चाहिए।

तर्क:

  • गुंजाइश: एक स्कोप ऑब्जेक्ट
  • true_classes: एक बैच_साइज़ * num_true मैट्रिक्स, जिसमें प्रत्येक पंक्ति में संबंधित मूल लेबल में num_true target_classes की आईडी होती है।
  • num_true: संदर्भ के अनुसार सच्चे लेबल की संख्या।
  • num_sampled: यादृच्छिक रूप से नमूना लेने के लिए उम्मीदवारों की संख्या।
  • अद्वितीय: यदि अद्वितीय सत्य है, तो हम अस्वीकृति के साथ नमूना लेते हैं, ताकि बैच में सभी सैंपल किए गए उम्मीदवार अद्वितीय हों। पोस्ट-अस्वीकृति नमूना संभावनाओं का अनुमान लगाने के लिए इसके लिए कुछ सन्निकटन की आवश्यकता होती है।
  • range_max: नमूना पूर्णांक अंतराल से नमूना लेगा [0, range_max)।

वैकल्पिक विशेषताएँ ( Attrs देखें):

  • vocab_file: इस फ़ाइल में प्रत्येक वैध पंक्ति (जिसमें CSV जैसा प्रारूप होना चाहिए) एक मान्य शब्द आईडी से मेल खाती है। ID अनुक्रमिक क्रम में हैं, num_reserved_ids से शुरू। प्रत्येक पंक्ति में अंतिम प्रविष्टि को गणना या सापेक्ष संभावना के अनुरूप मान होने की उम्मीद है। वास्तव में इस ऑप को पास करने की जरूरत है।
  • विकृति: विरूपण का उपयोग यूनिग्राम संभावना वितरण को तिरछा करने के लिए किया जाता है। आंतरिक यूनीग्राम वितरण में जोड़ने से पहले विकृति की शक्ति के लिए प्रत्येक वजन उठाया जाता है। नतीजतन, विकृति = 1.0 नियमित यूनीग्राम नमूना देता है (जैसा कि शब्दचित्र फ़ाइल द्वारा परिभाषित किया गया है), और विरूपण = 0.0 एक समान वितरण देता है।
  • num_reserved_ids: वैकल्पिक रूप से कुछ आरक्षित ID को उपयोगकर्ताओं द्वारा श्रेणी [0, ..., num_reserved_ids) में जोड़ा जा सकता है। एक उपयोग मामला यह है कि एक विशेष अज्ञात शब्द टोकन का उपयोग आईडी 0 के रूप में किया जाता है। इन आईडी में 0 की नमूना संभावना होगी।
  • num_shards: समतुल्यता के माध्यम से संपूर्ण संगणना को गति देने के लिए मूल श्रेणी के सबसेट से नमूने के लिए एक नमूना का उपयोग किया जा सकता है। यह पैरामीटर ('शार्द' के साथ) कुल विभाजन में उपयोग किए जा रहे विभाजन की संख्या को इंगित करता है।
  • शार्द: एक समतुल्य का उपयोग मूल सीमा के सबसेट से नमूने के लिए किया जा सकता है ताकि समानता के साथ संपूर्ण गणना को गति मिल सके। यह पैरामीटर ('num_shards' के साथ) एक नमूना ऑप के विशेष विभाजन संख्या को इंगित करता है, जब विभाजन का उपयोग किया जा रहा हो।
  • यूनीग्राम: यूनीग्राम गणना या संभाव्यता की एक सूची, क्रमबद्ध क्रम में एक आईडी। वास्तव में इस ऑप से कोई भी शब्द vabab_file और unigrams पास होना चाहिए।
  • बीज: यदि या तो बीज या बीज 2 को गैर-शून्य पर सेट किया जाता है, तो यादृच्छिक संख्या जनरेटर को दिए गए बीज द्वारा बोया जाता है। अन्यथा, यह एक यादृच्छिक बीज द्वारा बोया जाता है।
  • seed2: बीज टकराव से बचने के लिए एक दूसरा बीज।

रिटर्न:

  • Output sampled_candidates: लंबाई का एक वेक्टर num_sampled, जिसमें प्रत्येक तत्व एक नमूना उम्मीदवार की आईडी है।
  • Output true_ अप्रत्याशित_count: एक बैच_साइज़ * num_true मैट्रिक्स, प्रत्येक उम्मीदवार के नमूना उम्मीदवारों के बैच में होने की संख्या का प्रतिनिधित्व करने की उम्मीद है। यदि अद्वितीय = सत्य है, तो यह एक संभावना है।
  • Output samped_ अप्रत्याशित_count: लंबाई के एक वेक्टर num_sampled, प्रत्येक नमूना उम्मीदवार के लिए उम्मीदवार के नमूना संख्या के बैच में होने की संख्या का प्रतिनिधित्व करने की उम्मीद है। यदि अद्वितीय = सत्य है, तो यह एक संभावना है।

कंस्ट्रक्टर और डिस्ट्रक्टर्स

FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max)
FixedUnigramCandidateSampler (const :: tensorflow::Scope & scope, :: tensorflow::Input true_classes, int64 num_true, int64 num_sampled, bool unique, int64 range_max, const FixedUnigramCandidateSampler::Attrs & attrs)

सार्वजनिक विशेषताएँ

operation
sampled_candidates
sampled_expected_count
true_expected_count

सार्वजनिक स्थैतिक कार्य

Distortion (float x)
NumReservedIds (int64 x)
NumShards (int64 x)
Seed (int64 x)
Seed2 (int64 x)
Shard (int64 x)
Unigrams (const gtl::ArraySlice< float > & x)
VocabFile (StringPiece x)

संरचनाएं

टेंसोफ़्लो :: ऑप्स :: फिक्स्डयूनिग्रामकैंडिडेटसैंपलर :: एट्र्स

वैकल्पिक विशेषता FixedUnigramCandidateSampler के लिए बसती है

सार्वजनिक विशेषताएँ

ऑपरेशन

Operation operation

samped_candidates

::tensorflow::Output sampled_candidates

नमूना

::tensorflow::Output sampled_expected_count

true_ अप्रत्याशित_काउंट

::tensorflow::Output true_expected_count

सार्वजनिक कार्य

फिक्स्डयूनिग्रामक्रमिडेटसम्प्लर

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max
)

फिक्स्डयूनिग्रामक्रमिडेटसम्प्लर

 FixedUnigramCandidateSampler(
  const ::tensorflow::Scope & scope,
  ::tensorflow::Input true_classes,
  int64 num_true,
  int64 num_sampled,
  bool unique,
  int64 range_max,
  const FixedUnigramCandidateSampler::Attrs & attrs
)

सार्वजनिक स्थैतिक कार्य

विरूपण

Attrs Distortion(
  float x
)

NumReservedIds

Attrs NumReservedIds(
  int64 x
)

नम्बरदार

Attrs NumShards(
  int64 x
)

बीज

Attrs Seed(
  int64 x
)

बीज २

Attrs Seed2(
  int64 x
)

ठीकरा

Attrs Shard(
  int64 x
)

यूनीग्राम

Attrs Unigrams(
  const gtl::ArraySlice< float > & x
)

VocabFile

Attrs VocabFile(
  StringPiece x
)