बहु-सशस्त्र डाकुओं का परिचय

TensorFlow.org पर देखें Google Colab में चलाएं GitHub पर स्रोत देखें नोटबुक डाउनलोड करें

परिचय

मल्टी-आर्म्ड बैंडिट (एमएबी) एक मशीन लर्निंग फ्रेमवर्क है जिसमें एक एजेंट को लंबी अवधि में अपने संचयी इनाम को अधिकतम करने के लिए क्रियाओं (हथियारों) का चयन करना होता है। प्रत्येक दौर में, एजेंट को वर्तमान स्थिति (संदर्भ) के बारे में कुछ जानकारी प्राप्त होती है, फिर वह इस जानकारी और पिछले दौर में एकत्रित अनुभव के आधार पर एक कार्रवाई चुनता है। प्रत्येक दौर के अंत में, एजेंट को चुनी गई कार्रवाई से जुड़ा इनाम मिलता है।

शायद शुद्ध उदाहरण समस्या यह है कि एमएबी के लिए इसका नाम उधार है: कल्पना कीजिए कि हम का सामना कर रहे k स्लॉट मशीनों (वन-आर्म्ड बैंडिट), और हम आंकड़ा करने की जरूरत है बाहर जो एक सबसे अच्छा भुगतान किया है, जबकि बहुत ज्यादा पैसा खोने नहीं।

बहु-सशस्त्र डाकू

प्रत्येक मशीन को एक बार आज़माना और फिर सबसे अधिक भुगतान करने वाली मशीन को चुनना एक अच्छी रणनीति नहीं होगी: एजेंट ऐसी मशीन चुनने में पड़ सकता है जिसका शुरुआत में एक भाग्यशाली परिणाम था लेकिन सामान्य रूप से उप-इष्टतम है। इसके बजाय, एजेंट को बार-बार उन मशीनों को चुनने के लिए वापस आना चाहिए जो इतनी अच्छी नहीं लगती हैं, ताकि उनके बारे में अधिक जानकारी एकत्र की जा सके। मल्टी-आर्म्ड बैंडिट्स में यह मुख्य चुनौती है: एजेंट को पूर्व ज्ञान के दोहन और खोज के बीच सही मिश्रण खोजना होगा ताकि इष्टतम कार्यों की अनदेखी से बचा जा सके।

एमएबी के अधिक व्यावहारिक उदाहरणों में हर बार जब शिक्षार्थी कोई निर्णय लेता है, तो एक पक्ष जानकारी शामिल होती है। हम इस पक्ष की जानकारी को "संदर्भ" या "अवलोकन" कहते हैं।

बहु-सशस्त्र डाकुओं और सुदृढीकरण सीखना

TF-Agents लाइब्रेरी में MAB सुइट क्यों है? RL और MAB के बीच क्या संबंध है? बहु-सशस्त्र डाकुओं को सुदृढीकरण सीखने का एक विशेष मामला माना जा सकता है। के शब्दों में आर एल का परिचय :

हर बार कदम पर, एजेंट अपनी नीति के आधार पर पर्यावरण पर कोई ऐसा कार्य करता \(\pi(a_t|s_t)\), जहां \(s_t\) पर्यावरण से वर्तमान अवलोकन है, और एक इनाम प्राप्त \(r_{t+1}\) और अगले अवलोकन \(s_{t+1}\) वातावरण से . लक्ष्य नीति में सुधार करना है ताकि पुरस्कारों के योग (वापसी) को अधिकतम किया जा सके।

सामान्य आर एल मामले में, अगले अवलोकन \(s_{t+1}\) पहले वाली स्थिति पर निर्भर करता है \(s_t\) और कार्रवाई \(a_t\) नीति द्वारा उठाए गए। यह अंतिम भाग है जो एमएबी को आरएल से अलग करता है: एमएबी में, अगला राज्य, जो अवलोकन है, एजेंट द्वारा चुनी गई कार्रवाई पर निर्भर नहीं करता है।

यह समानता हमें TF-Agents में मौजूद सभी अवधारणाओं का पुन: उपयोग करने की अनुमति देती है।

  • एक ऐसा वातावरण टिप्पणियों, और पुरस्कार के साथ कार्रवाई का जवाब आउटपुट।
  • एक नीति एक अवलोकन के आधार पर एक कार्रवाई आउटपुट, और
  • एक एजेंट ने बार-बार नीति पिछले प्रेक्षण-एक्शन इनाम tuples के आधार पर अद्यतन करता है।

मशरूम पर्यावरण

उदाहरण के लिए, हम "मशरूम पर्यावरण" नामक एक खिलौना उदाहरण का उपयोग करते हैं। मशरूम डाटासेट ( Schlimmer, 1981 ) खाद्य और जहरीला मशरूम की लेबल उदाहरण के होते हैं। सुविधाओं में आकार, रंग, मशरूम के विभिन्न भागों के आकार, साथ ही गंध और बहुत कुछ शामिल हैं।

मशरूम

मशरूम डेटासेट, सभी पर्यवेक्षित शिक्षण डेटासेट की तरह, एक प्रासंगिक एमएबी समस्या में बदल सकता है। हम विधि भी द्वारा प्रयोग किया जाता का उपयोग Riquelme एट अल। (2018) । इस रूपांतरण में, एजेंट मशरूम की विशेषताओं को प्राप्त करता है, इसे खाने या न खाने का फैसला करता है। खाद्य मशरूम खाने से +5 का इनाम मिलता है, जबकि जहरीला मशरूम खाने से समान संभावना के साथ +5 या -35 मिलेगा। मशरूम न खाने का परिणाम 0 इनाम में मिलता है, स्वतंत्र रूप से मशरूम के प्रकार से। निम्न तालिका पुरस्कार असाइनमेंट का सारांश प्रस्तुत करती है:

           | edible | poisonous
-----------|--------|----------
eating it  |     +5 | -35 / +5
leaving it |      0 |        0

लिनयूसीबी एजेंट

एक प्रासंगिक दस्यु वातावरण में अच्छा प्रदर्शन करने के लिए अवलोकन को देखते हुए प्रत्येक क्रिया के इनाम समारोह पर एक अच्छे अनुमान की आवश्यकता होती है। एक संभावना रैखिक कार्यों के साथ इनाम समारोह का अनुमान लगाना है। है, हर कार्रवाई के लिए कि \(i\), हम पैरामीटर खोजने की कोशिश कर रहे हैं \(\theta_i\in\mathbb R^d\) जो अनुमान के लिए

\(r_{t, i} \sim \langle v_t, \theta_i\rangle\)

यथासंभव वास्तविकता के करीब हैं। यहाँ \(v_t\in\mathbb R^d\) समय कदम पर प्राप्त संदर्भ है \(t\)। तो फिर, अगर एजेंट अपने अनुमान में बहुत विश्वास है, यह चयन कर सकते हैं \(\arg\max_{1, ..., K}\langle v_t, \theta_k\rangle\) उच्चतम उम्मीद पुरस्कार प्राप्त करें।

जैसा कि ऊपर बताया गया है, केवल सर्वोत्तम अनुमानित इनाम के साथ हाथ चुनने से अच्छी रणनीति नहीं बनती है। वहाँ रैखिक आकलनकर्ता एजेंटों में शोषण और अन्वेषण मिश्रण करने के विभिन्न तरीके हैं, और सबसे प्रसिद्ध में से एक रैखिक ऊपरी सीमा (LinUCB) एल्गोरिथ्म विश्वास है (देखें उदाहरण के लिए ली एट अल। 2010 )। LinUCB के दो मुख्य निर्माण खंड हैं (कुछ विवरण छोड़े गए):

  1. यह रैखिक कम से कम वर्गों के साथ हर हाथ के मापदंडों के लिए अनुमान का कहना है: \(\hat\theta_i\sim X^+_i r_i\), जहां \(X_i\) और \(r_i\) खड़ी संदर्भों और दौर के पुरस्कार जहां हाथ कर रहे हैं \(i\) चुना गया था, और \(()^+\) छद्म उल्टा होता है .
  2. यह आत्मविश्वास ellipsoids उलटा सहप्रसरण द्वारा परिभाषित का कहना है \(X_i^\top X_i\) ऊपर अनुमान के लिए।

LinUCB का मुख्य विचार "अनिश्चितता की स्थिति में आशावाद" का है। एजेंट उन अनुमानों के विचरण से मेल खाने वाली राशि से अनुमानों को बढ़ाकर अन्वेषण को शामिल करता है। यही कारण है कि वह जगह है जहाँ आत्मविश्वास ellipsoids चित्र में आते हैं: हर हाथ के लिए, आशावादी अनुमान है \(\hat r_i = \max_{\theta\in E_i}\langle v_t, \theta\rangle\), जहां \(E_i\) दीर्घवृत्ताभ के आसपास है \(\hat\theta_i\)। एजेंट चुनता सर्वश्रेष्ठ स्थिति में हाथ \(\arg\max_i\hat r_i\)।

बेशक उपरोक्त विवरण LinUCB जो करता है उसका एक सहज लेकिन सतही सारांश है। एक कार्यान्वयन हमारे codebase में पाया जा सकता है यहाँ

आगे क्या होगा?

आप हमारी डाकू पुस्तकालय पर एक अधिक विस्तृत ट्यूटोरियल करना चाहते हैं हमारे पर एक नज़र डालें डाकू के लिए ट्यूटोरियल । तो इसके बजाय, आप हमारे पुस्तकालय अभी तलाश शुरू करना चाहते हैं, तो आप इसे पा सकते हैं यहाँ । आप और भी अधिक हमारे अंत से अंत उदाहरण में से कुछ पर प्रशिक्षण, देखो शुरू करने के लिए उत्सुक हैं, तो यहाँ , LinUCB के साथ ऊपर वर्णित मशरूम वातावरण सहित यहाँ