تقریباً یک دهه پیش، گوگل ویژگیای به نام Now on Tap در اندروید Marshmallow نمایش داد – با نگه داشتن دکمه خانه، گوگل اطلاعات مفید متناسب با محتوای صفحه نمایش را ارائه میکرد. در مورد یک فیلم با دوستی از طریق نوشتن متن صحبت میکنید؟ Now on Tap میتوانست جزئیاتی در مورد عنوان فیلم را بدون نیاز به ترک برنامه پیامرسانی به شما بدهد. به رستورانی در Yelp نگاه میکنید؟ تلفن میتوانست پیشنهادات OpenTable را فقط با یک ضربه ارائه دهد.
این بهبودها هیجانانگیز و جادویی به نظر میرسیدند – توانایی آن برای درک محتوای صفحه و پیشبینی اقداماتی که ممکن است بخواهید انجام دهید، آیندهنگرانه به نظر میرسید. این یکی از ویژگیهای جالب در اندروید بود. این ویژگی به تدریج به Google Assistant تبدیل شد که خود عالی بود، اما کاملاً مشابه نبود.
امروز، در کنفرانس توسعهدهندگان I/O گوگل در مانتین ویو، کالیفرنیا، ویژگیهای جدیدی که گوگل در سیستم عامل اندروید خود معرفی میکند، شبیه Now on Tap قدیمی است. باز هم این سیستم به شما امکان میدهد از اطلاعات متناسب با محیط اطراف خود استفاده کنید تا استفاده از تلفن همراه خود را کمی آسانتر کنید. اما این بار، این ویژگیها یک دهه پیشرفت داشته اند و در مدلهای زبانی بزرگ قدرت گرفتهاند.
دیو برک، معاون مهندسی در اندروید می گوید: “فکر میکنم هیجانانگیز است که ما اکنون فناوری لازم برای ساخت دستیارهای واقعاً هیجانانگیز را داریم. ما باید یک سیستم کامپیوتری داشته باشیم که درک کند چه چیزی را میبیند و فکر نمیکنم در آن زمان فناوری لازم برای انجام خوب آن را داشتیم. حالا داریم.”
سمیر سامات، رئیس اکوسیستم اندروید در گوگل، درباره جدیدترینها در دنیای اندروید، دستیار هوش مصنوعی جدید شرکت جمینی، و آنچه که همه اینها برای آینده سیستمعامل نگه دارد، صحبتهایی را مطرح نموده است. سامات به این بهروزرسانیها به عنوان “فرصتی که ممکن است در هر نسل یک بار رخ دهد، در راستای نگاهی دوباره با آنچه تلفن میتواند انجام دهد و بازاندیشی درباره در خصوص اندروید” اشاره کرد.
این با Circle to Search آغاز میشود، که روش جدید گوگل برای نزدیک شدن به جستجو در موبایل است. مانند تجربه Now on Tap، Circle to Search—که شرکت چند ماه پیش رونمایی کرد—تعاملیتر از فقط تایپ کردن در یک جعبه جستجو است. (شما واقعاً آنچه را که میخواهید جستجو کنید در صفحه دایره میزنید.) برک میگوید “این یک روش بسیار غریزی، سرگرمکننده و مدرن برای جستجو است… این ویژگی به دلیل سرگرمکننده بودن استفاده آن، جوانترها را نیز جذب میکند.”
سامات ادعا میکند گوگل بازخورد مثبتی از مصرفکنندگان دریافت کرده است، اما آخرین ویژگی Circle to Search به خصوص از بازخورد دانشآموزان به دست آمده است. Circle to Search اکنون میتواند برای مسائل فیزیک و ریاضی استفاده شود وقتی کاربر آنها را دایره میزند—گوگل دستورالعملهای گام به گام برای حل مسائل را بدون نیاز به خروج کاربر از برنامه سرفصل در اختیارش قرار میدهد.
سامات تاکید کرد که جمینی نه تنها پاسخها را ارائه میدهد، بلکه به دانشآموزان نشان میدهد چگونه مسائل را حل کنند. در اواخر امسال، Circle to Search قادر خواهد بود مسائل پیچیدهتری مانند نمودارها و گرافها را حل کند. اینها همه توسط مدلهای LearnLM گوگل، که برای آموزش تنظیم شدهاند، قدرت گرفته است.
جمینی در اندروید بیشتر فعال میشود
جمینی دستیار هوش مصنوعی گوگل است که در بسیاری از موارد دستیار گوگل را به حاشیه میراند. وقتی این روزها دستیار گوگل را در بیشتر تلفنهای اندروید راهاندازی میکنید، گزینهای برای جایگزینی آن با جمینی وجود دارد. از برک و سامات به این پرسش که آیا این به معنای رفتن دستیار گوگل به گورستان گوگل است پاسخ می دهند.
سامات میگوید “روش نگاه این است که جمینی یک تجربه اختیاری در تلفن است. فکر میکنم واضح است که با گذشت زمان جمینی پیشرفتهتر و در حال تکامل است. ما امروز چیزی برای اعلام کردن نداریم، اما یک انتخاب برای مصرفکنندگان وجود دارد اگر آنها بخواهند به این دستیار جدید مجهز به هوش مصنوعی بپیوندند. آنها میتوانند آن را امتحان کنند و ما میبینیم که مردم این کار را انجام میدهند و بازخوردهای بسیار خوبی دریافت میکنیم.”
در I/O، بهروزرسانیهای جمینی در اندروید برای آگاهی بیشتر زمینهای، دقیقاً مانند Now on Tap تقریباً یک دهه پیش، است. در اواخر سال، شما قادر خواهید بود تصاویر را با جمینی تولید کنید و آنها را به برنامههایی مانند Gmail یا Google Messages بکشید و رها کنید. برک نمونهای از تولید تصویری از تنیس با خیارها توسط جمینی را نشان داد. او در حال پاسخ به متن کسی درباره بازی پیکلبال بود. او جمینی را که به عنوان یک پوشش بر روی برنامه پیامرسانی ظاهر شد، فراخوانی کرد، از آن خواست تا تصویر را تولید کند، و سپس یکی از تصاویر را کشید و در چت رها کرد. سپس او یک ویدئوی YouTube درباره قوانین پیکلبال را بالا آورد. جمینی را در حال تماشا فراخوانی کرد و پیشنهادی برای “پرسیدن از این ویدئو” را دریافت کرد. این به شما امکان میدهد جمینی را به کار گیرید تا اطلاعات خاصی در ویدئو را بدون اینکه خودتان کل ویدئو را بکاوید، پیدا کنید. (چه کسی وقت برای آن دارد؟) برک در مورد یک قانون خاص پیکلبال پرسید و جمینی سریعاً بر اساس ویدئو پاسخی را بیرون داد. این عملکرد “خلاصهسازی” شاخص بسیاری از ابزارهای هوش مصنوعی بوده است—خلاصهسازی PDFها، ویدئوها، یادداشتها و داستانهای خبری.
در مورد PDFها، به زودی شما قادر خواهید بود یک PDF را به جمینی پیوست کنید (یک پیشنهاد برای “پرسیدن از این PDF” وجود خواهد داشت) و جمینی میتواند اطلاعات خاصی را ارائه دهد، که شما را از نیاز به پیمایش چندین صفحه بینیاز میکند. برک میگوید این ویژگیها در طی چند ماه آینده به میلیونها دستگاه عرضه میشوند، اگرچه ویژگی PDF فقط برای کاربران پیشرفته جمینی—افرادی که برای اشتراک 20 دلار در ماه برای دسترسی به قابلیتهای پیشرفته مدلهای هوش مصنوعی گوگل پرداخت میکنند—موجود خواهد بود.
جمینی به طور کلی “پیشنهادات پویا” بیشتری را بر اساس آنچه که بر روی صفحه اتفاق میافتد نشان خواهد داد. این پیشنهادات دقیقاً بالای صفحه جمینی وقتی که دستیار را فعال میکنید ظاهر خواهند شد.
جمینی نانو ارتقاء مییابد
جمینی نانو مدل زبان گسترده گوگل است که ویژگیهای خاصی را روی دستگاه در تلفنهای خاصی مانند سری پیکسل 8، رنج سامسونگ گلکسی S24 و حتی پیکسل جدید 8A ارائه می دهد. اجرای این ویژگیها به عنوان ویژگیهای روی دستگاه به این معناست که دادهها نیازی به ارسال به ابر ندارند، که باعث میشود ویژگیها خصوصیتر شوند. آنها حتی میتوانند به صورت آفلاین نیز کار کنند.
نانو در حال حاضر ویژگیهایی مانند خلاصهسازی در برنامه ضبط گوگل، که متون را خلاصه میکند، و پاسخ هوشمند در برنامههای پیامرسانی منتخب، که پاسخهای خودکار مناسبتر به پیامها را ارائه میدهد، را فعال می کند. نسخه جدیدتر مدل گوگل—جمینی نانو با ساختار چندرسانهای—امسال وارد بازار خواهد شد، و شروع آن با تلفنهای پیکسل خواهد بود. این کمی طولانی است، اما کم و بیش به این معناست که جمینی نانو قادر خواهد بود کارهایی بیش از فقط پردازش متن انجام دهد.
برک میگوید “این یک مدل با 3.8 میلیارد پارامتر و چندرسانهای است—این اولین مدل چندرسانهای ساخته شده روی دستگاه است. این سیستم بسیار قدرتمند است. “
این مدل اکنون قدرت ویژگی خواننده صفحه نمایش TalkBack موجود در اندروید را خواهد داشت، که به کاربران نابینا و کمبینا کمک میکند تا درک کنند چه چیزی روی صفحه است. گفته میشود جمینی نانو توصیفات غنیتر و دقیقتری از آنچه در هر تصویر است ارائه خواهد داد. گوگل میگوید به طور متوسط، کاربران TalkBalk “روزانه 90 تصویر بدون برچسب” را مشاهده میکنند، اما جمینی میتواند این شکاف را پر کند زیرا قادر خواهد بود تصاویر روی صفحه را تجسم و درک کند و حتی زمانی که کاربر آفلاین است آنها را توصیف کند.
گوگل در چند سال گذشته بسیاری از هوش مصنوعی خود را برای بهبود فناوری غربالگری تماسهای خود به منظور محدود کردن تماسهای رباتیک صرف کرده است، و جمینی نانو با سیستم چندرسانهای به زودی به شما کمک خواهد کرد تا از تماسهای تلفنی کلاهبرداری در زمان واقعی جلوگیری کنید. یک ویژگی جدید به نام تشخیص کلاهبرداری وجود خواهد داشت که در آن جمینی به تماسهای تلفنی شما گوش میدهد، و اگر او عبارات یا درخواستهایی نامناسب از شخص در آن سوی خط را تشخیص دهد، هشداری صادر خواهد کرد که احتمالاً شما در وسط یک تماس تلفنی کلاهبرداری هستید. برک میگوید این مدل با دادههایی از وبسایتهایی مانند BanksNeverAskThat.com آموزش دیده است تا یاد بگیرد چه چیزهایی یک بانک از شما نمیپرسد—و انواع چیزهایی که کلاهبرداران معمولاً درخواست میکنند. او میگوید تمام این شنیدن و تشخیص روی دستگاه اتفاق میافتد، بنابراین خصوصی است. در مورد این “ویژگی اختیاری” امسال بیشتر خواهیم شنید.
اگر شما یک ماشین خریداری کنید، انتظار دارید ویژگیهای استاندارد خاصی، مانند فرمان، داشته باشید. اما با هوش مصنوعی، یک جهش بزرگ این خواهد بود که آن ویژگیها را بردارید—بدون فرمان، بدون رابطها. سامات می گوید “برخی از افراد از آن هیجانزده میشوند، برخی دیگر هیجانزده نمیشوند.” او باور دارد که برخی از عملکردهایی که ما با تلفنهای خود انجام میدهیم با کمک هوش مصنوعی بیش از همیشه کمککننده خواهند بود—و ما میتوانیم انتظار داشته باشیم که برخی از ویژگیها به آن روش جایگزین شوند. او می گوید “با ادامه این روند، آنچه که ما خواهیم یافت—و ما اکنون این را در آزمایشهای خودمان میبینیم—این است که فرصتهایی برای تغییر بنیادی رابط کاربری در برخی از مناطق وجود دارد که از دیدگاه ‘این واقعاً کمککننده است’ به ‘در واقع، باید یک روش کاملاً جدید برای انجام این کار وجود داشته باشد.’ تغییر می کند. این یک زمان شگفتانگیز برای کار کردن بر روی این فناوری است.”