AndroidEnv

एंड्रॉइड ओएस तक पहुंचने के लिए सुदृढीकरण सीखने के लिए एक इंटरफ़ेस

एक नज़र में: AndroidEnv

AndroidEnv, Reinforcement Learning एजेंटों को Android OS पर प्रशिक्षित करने में सक्षम बनाने के लिए एक नई परत है, जिसे Alphabet की काफी प्रसिद्ध AI-शाखा, Deepmind द्वारा विकसित किया गया है। यह एक तरफ Android और ADB के बीच बैठता है और दूसरी तरफ एक एजेंट जो प्रशिक्षित हो रहा है। यदि आप नहीं जानते हैं, तो "एजेंट" एक मशीन-लर्निंग एप्लिकेशन को संदर्भित करता है जिसे आप कोड और चला सकते हैं। AndroidEnv Github पर एक ओपन-सोर्स रिपॉजिटरी के रूप में उपलब्ध है।

Android के लिए एक यथार्थवादी पहुंच

AndroidEnv का उद्देश्य एक ऐसा वातावरण प्रदान करना है जो प्रशिक्षण के लिए यथासंभव यथार्थवादी हो, इसलिए लागू बाधाएं उन लोगों से मेल खाती हैं जिनकी हम उन मनुष्यों के लिए अपेक्षा कर सकते हैं जो Android के साथ भी बातचीत करते हैं:

  • एक एजेंट मुख्य रूप से उन पिक्सेल को पढ़ सकता है जो Android प्रदान करता है; इस सुविधा के लिए, टचस्क्रीन का अनुकरण करने वाले इंटरफ़ेस का उपयोग किसके लिए किया जाता है
  • एक्शन स्पेस (पर्यावरण के साथ बातचीत करने के लिए उपलब्ध विकल्पों का सेट) कई सरल क्रियाओं से बना है, जैसे स्पर्श करना, उठाना या हटाना

AndroidEnv का लक्ष्य सुदृढीकरण सीखने की सीमाओं को आगे बढ़ाना है। ओपनएआई के "यूनिवर्स" प्लेटफॉर्म के समान, जो एजेंटों को माउस और कीबोर्ड के लिए एक इंटरफेस के माध्यम से दृश्यों के साथ बातचीत करने में सक्षम बनाता है, दीपमाइंड की नवीनतम रचना डेवलपर्स को अपने मॉडल को सबसे चुनौतीपूर्ण वातावरण में से एक में प्रशिक्षित करने की अनुमति देती है।

मेरे कहने का मतलब यह है कि पूर्व मॉडलों के पास एक विशेष इंटरफ़ेस के माध्यम से अपने लक्ष्य तक पहुंच थी, जिसने बातचीत को बहुत सरल बना दिया। साथ ही, AndroidEnv स्क्रीन के पिक्सल (उस पर बाद में) के अलावा बहुत अधिक अतिरिक्त जानकारी प्रदान नहीं करता है, जो इसके उपयोग को इतना यथार्थवादी बनाता है।

बातचीत पर एक नजदीकी नजर

जैसा कि उल्लेख किया गया है, AndroidEnv कच्ची क्रियाओं का एक सेट प्रदान करता है जो सभी बुनियादी आंदोलनों का अनुकरण करते हैं जिनका उपयोग मानव टचस्क्रीन के साथ बातचीत करते समय भी करेगा। इन कच्ची क्रियाओं को इशारों के एक सेट द्वारा पूरक किया जाता है जो एजेंट द्वारा प्रभावी नियंत्रण की अनुमति देता है, जैसे कि स्वाइप करना या स्क्रॉल करना।

AndroidEnv के साथ सहभागिता भी इस प्लेटफ़ॉर्म पर एक बड़ी चुनौती की रूपरेखा तैयार करती है: खुले ऐप (या सामान्य रूप से कार्य) के आधार पर, वे अर्थ में बहुत भिन्न हो सकते हैं। एक ऐप में स्वाइप का इस्तेमाल दूसरे ऐप के अंदर पूरी तरह से अलग संदर्भ में किया जा सकता है।

यह भी महत्वपूर्ण है: AndroidEnv पर एजेंटों को वास्तविक समय OS, जैसे Android की रीयल टाइम प्रकृति से निपटना होता है। इसका मतलब है कि जब तक एजेंट अगली कार्रवाई सेट नहीं करता तब तक एप्लिकेशन से कोई प्रतीक्षा नहीं होती है - ओएस बस चलता रहता है। एजेंटों के लिए यह एक विशेष कठिन चुनौती है। यदि एजेंट को प्रतिक्रिया करने में बहुत अधिक समय लगता है (जैसे प्रसंस्करण के दौरान एक टैप छोड़ना, जिससे एंड्रॉइड द्वारा व्याख्या की गई एक लंबी प्रेस की ओर जाता है) तो AndroidEnv झूठे सकारात्मक इनपुट से बचने के लिए एक छोटा संगतता उपकरण प्रदान करता है।

उन कार्यों को परिभाषित करना जिन्हें पूरा करना है

एक कार्य एक विशिष्ट समस्या को परिभाषित करता है जिसे एक आरएल एजेंट द्वारा हल किया जाना है। आपके एजेंट के उचित प्रशिक्षण की अनुमति देने के लिए, कार्य कुछ डेटा पहलुओं को कैप्चर करते हैं जो प्रासंगिक हैं:

  • "एपिसोड समाप्ति की स्थिति": कार्य कब किया जाता है या कब यह निश्चित रूप से विफल रहा है
  • "पुरस्कार": प्राप्त लक्ष्यों के लिए संख्यात्मक प्रतिक्रिया प्रदान करना
  • अन्य एप्लिकेशन जिन्हें कार्य के लिए इंटरैक्ट किया जा सकता है

सार्थक और प्रासंगिक प्रतिक्रिया को सक्षम करने के लिए, AndroidEnv के पास ADB, "एंड्रॉइड डिवाइस ब्रिज" तक पहुंच है, जो डिवाइस से लॉग की एक धारा है और इसलिए एक कार्य को इसे देखने और आवश्यक होने पर पूर्वनिर्धारित संकेतों को ट्रिगर करने की अनुमति देता है।

संभावनाओं का सागर

AndroidEnv का AI के समग्र विकास पर संभावित प्रभाव हो सकता है और विशेष रूप से सुदृढीकरण सीखने को अतिरंजित नहीं किया जा सकता है। यह न केवल एजेंटों को यह सीखने की अनुमति देता है कि एंड्रॉइड के साथ कैसे बातचीत करें ("मैप्स खोलें और पास के सुशी रेस्तरां की खोज करें"), बल्कि ऐप के आधार पर समस्या समाधान के लिए कई अन्य तकनीकों को भी लागू करें। उदाहरण के लिए, एक एजेंट को गेम खेलने के लिए प्रशिक्षित किया जा सकता है (एंड्रॉइड पर सभी गेम उपलब्ध हैं!)

AndroidEnv एक गेट के रूप में कार्य करता है जिसे किसी के लिए भी ML मॉडल लिखने के लिए खोला गया है जिसे व्यावहारिक रूप से हर संभव कार्य पर प्रशिक्षित किया जा सकता है। यह दिमाग उड़ाने वाला है!

जहाज़ यात्रा का आरंभ

चूंकि मैं मशीन लर्निंग इंजीनियर नहीं हूं, इसलिए मेरा ज्ञान केवल सतही स्तर का है। यह लेख AndroidEnv के परिचय के रूप में कार्य करता है, लेकिन अधिक जानकारी के लिए कृपया Github-repository सहित सभी प्रासंगिक लिंक के साथ परिशिष्ट देखें।

सुझाव

संबंधित

परिशिष्ट

भाषाएँ