Ferret UI के साथ एप्पल शोधकर्ताओं द्वारा नए आर्टिफिशियल इंटेलिजेंस मॉडल पर एक और पेपर प्रकाशित
Apple के शोधकर्ता ने एक और पेपर प्रकाशित किया है जिसपर आर्टिफिशियल इंटेलिजेंस (AI) Model की ध्यान में और इस बार फोकस स्मार्टफोन यूजर इंटरफेस (यूआई) को समझने और नेविगेट करने पर है। अब तक समीक्षा के लिए उपलब्ध नहीं होने वाले शोध पेपर एक बड़े भाषा मॉडल (LLM) Ferret UI को हाइलाइट करता है, जो पारंपरिक कंप्यूटर विजन को पार कर सकता है और जटिल स्मार्टफोन स्क्रीन को समझ सकता है। खासकर, यह एप्पल के शोध विभाग द्वारा प्रकाशित एआई पर पहला पेपर नहीं है। इसने पहले ही मल्टीमोडल एलएलएम्स (एमएलएम्स) और डिवाइस पर एआई मॉडल्स पर एक पेपर प्रकाशित किया है।
arXiv पर शोध पेपर का पूर्व-प्रिंट संस्करण प्रकाशित हो चुका है
शोध पेपर का पूर्व-प्रिंट संस्करण arXiv पर प्रकाशित हो चुका है, जो एक खुले पहुँच के ऑनलाइन भंडार है जो विद्यार्थी पेपरों का धन्यवाद करता है। पेपर का शीर्षक है “Ferret UI: मल्टीमोडल एलएलएम्स के साथ ग्राउंडेड मोबाइल यूआई समझ” और एमएलएम्स के उपयोग मामले को बढ़ाने पर ध्यान केंद्रित करता है। इसका हाइलाइट है कि अधिकांश भाषा मॉडल्स जो मल्टीमोडल क्षमताओं के साथ होते हैं, प्राकृतिक छवियों से आगे समझ नहीं सकते और कार्यक्षमता “प्रतिबंधित” हैं। यह भी कहता है कि AI Models को एक स्मार्टफोन जैसे जटिल और गतिशील इंटरफेस को समझने की आवश्यकता है।
पेपर के अनुसार, Ferret UI “निश्चित संदर्भ कार्यों को बजाय UI स्क्रीन्स पर संविदा किया गया है, जबकि खुले समाप्तियों वाले भाषा निर्देशों को समझते हुए अभ्यस्त रूप से अनुवाद करता है।” सरल शब्दों में, यह विजन भाषा मॉडल न केवल एक स्मार्टफोन स्क्रीन को प्रसंगित अलग-अलग जानकारियों को प्रक्रिया कर सकता है, बल्कि यह यह भी उपयोगकर्ता को उनके बारे में बता सकता है जब उन्हें प्रश्न पूछा जाता है।

पेपर में साझा की गई image के आधार पर, मॉडल विजेट्स को समझ और वर्गीकृत कर सकता है और पहचान सकता है। यह “लॉन्च आइकन कहाँ है” और “रिमाइंडर्स एप्लिकेशन को कैसे खोलें” जैसे प्रश्नों का उत्तर दे सकता है। यह दिखाता है कि AI न केवल उस स्क्रीन को समझने में सक्षम है, जिसे वह देखता है, बल्कि एक प्रेरित के आधार पर आईफोन के विभिन्न हिस्सों में भी नेविगेट कर सकता है।
Ferret UI को प्रशिक्षित करने के लिए, Apple के शोधकर्ताओं ने विभिन्न जटिलताओं के डेटा का स्वयं निर्माण किया। इससे मॉडल को मूलभूत कार्यों का सीखने और एकल कदम प्रक्रियाओं को समझने में मदद मिली। “उन्नत कार्यों के लिए, हम GPT-4 [40] डेटा उत्पन्न करने के लिए, जिसमें विस्तृत विवरण, वार्ता प्रत्याक्षता, वार्ता अंतर्क्रिया, और कार्य का अनुमान शामिल हैं। ये उन्नत कार्य मॉडल को दृश्यीय घटकों के बारे में अधिक समझदार चर्चाओं में शामिल होने के लिए तैयार करते हैं, विशिष्ट लक्ष्यों के साथ कार्रवाई योजनाओं को तैयार करते हैं, और एक स्क्रीन के सामान्य उद्देश्य को व्याख्या करते हैं,” पेपर ने स्पष्ट किया।
यह पेपर वादानुक्रम को पार कर जाता है तो, तो Apple को इस क्षमता का उपयोग करने की संभावना है कि आईफोन में शक्तिशाली उपकरण जो सरल पाठ या शब्दमय प्रोंप्ट्स के साथ जटिल UI नेविगेशन कार्यों को कर सकते हैं, जो कि Siri के लिए आदर्श लगता है।