آینده هوش مصنوعی با گوگل

فرزاد بابا اصفهانی
ژوئن 19, 2024
9:35 ق.ظ

تقریباً یک دهه پیش، گوگل ویژگی‌ای به نام Now on Tap در اندروید Marshmallow نمایش داد – با نگه داشتن دکمه خانه، گوگل اطلاعات مفید متناسب با محتوای صفحه نمایش را ارائه می‌کرد. در مورد یک فیلم با دوستی از طریق نوشتن متن صحبت می‌کنید؟ Now on Tap می‌توانست جزئیاتی در مورد عنوان فیلم را بدون نیاز به ترک برنامه پیام‌رسانی به شما بدهد. به رستورانی در Yelp نگاه می‌کنید؟ تلفن می‌توانست پیشنهادات OpenTable را فقط با یک ضربه ارائه دهد.

این بهبودها هیجان‌انگیز و جادویی به نظر می‌رسیدند – توانایی آن برای درک محتوای صفحه و پیش‌بینی اقداماتی که ممکن است بخواهید انجام دهید، آینده‌نگرانه به نظر می‌رسید. این یکی از ویژگی‌های جالب در اندروید بود. این ویژگی به تدریج به Google Assistant تبدیل شد که خود عالی بود، اما کاملاً مشابه نبود.

امروز، در کنفرانس توسعه‌دهندگان I/O گوگل در مانتین ویو، کالیفرنیا، ویژگی‌های جدیدی که گوگل در سیستم عامل اندروید خود معرفی می‌کند، شبیه Now on Tap قدیمی است. باز هم این سیستم به شما امکان می‌دهد از اطلاعات متناسب با محیط اطراف خود استفاده کنید تا استفاده از تلفن همراه خود را کمی آسان‌تر کنید. اما این بار، این ویژگی‌ها یک دهه پیشرفت داشته اند و در مدل‌های زبانی بزرگ قدرت گرفته‌اند.

دیو برک، معاون مهندسی در اندروید می گوید: “فکر می‌کنم هیجان‌انگیز است که ما اکنون فناوری لازم برای ساخت دستیارهای واقعاً هیجان‌انگیز را داریم. ما باید یک سیستم کامپیوتری داشته باشیم که درک کند چه چیزی را می‌بیند و فکر نمی‌کنم در آن زمان فناوری لازم برای انجام خوب آن را داشتیم. حالا داریم.”

سمیر سامات، رئیس اکوسیستم اندروید در گوگل، درباره جدیدترین‌ها در دنیای اندروید، دستیار هوش مصنوعی جدید شرکت جمینی، و آنچه که همه این‌ها برای آینده سیستم‌عامل نگه دارد، صحبتهایی را مطرح نموده است. سامات به این به‌روزرسانی‌ها به عنوان “فرصتی که ممکن است در هر نسل یک بار رخ دهد، در راستای نگاهی دوباره با آنچه تلفن می‌تواند انجام دهد و بازاندیشی درباره در خصوص اندروید” اشاره کرد.

این با Circle to Search آغاز می‌شود، که روش جدید گوگل برای نزدیک شدن به جستجو در موبایل است. مانند تجربه Now on Tap، Circle to Search—که شرکت چند ماه پیش رونمایی کرد—تعاملی‌تر از فقط تایپ کردن در یک جعبه جستجو است. (شما واقعاً آنچه را که می‌خواهید جستجو کنید در صفحه دایره می‌زنید.) برک می‌گوید “این یک روش بسیار غریزی، سرگرم‌کننده و مدرن برای جستجو است… این ویژگی به دلیل سرگرم‌کننده بودن استفاده آن، جوان‌ترها را نیز جذب می‌کند.”

سامات ادعا می‌کند گوگل بازخورد مثبتی از مصرف‌کنندگان دریافت کرده است، اما آخرین ویژگی Circle to Search به خصوص از بازخورد دانش‌آموزان به دست آمده است. Circle to Search اکنون می‌تواند برای مسائل فیزیک و ریاضی استفاده شود وقتی کاربر آن‌ها را دایره می‌زند—گوگل دستورالعمل‌های گام به گام برای حل مسائل را بدون نیاز به خروج کاربر از برنامه سرفصل در اختیارش قرار می‌دهد.

سامات تاکید کرد که جمینی نه تنها پاسخ‌ها را ارائه می‌دهد، بلکه به دانش‌آموزان نشان می‌دهد چگونه مسائل را حل کنند. در اواخر امسال، Circle to Search قادر خواهد بود مسائل پیچیده‌تری مانند نمودارها و گراف‌ها را حل کند. اینها همه توسط مدل‌های LearnLM گوگل، که برای آموزش تنظیم شده‌اند، قدرت گرفته است.

جمینی در اندروید بیشتر فعال می‌شود

جمینی دستیار هوش مصنوعی گوگل است که در بسیاری از موارد دستیار گوگل را به حاشیه می‌راند. وقتی این روزها دستیار گوگل را در بیشتر تلفن‌های اندروید راه‌اندازی می‌کنید، گزینه‌ای برای جایگزینی آن با جمینی وجود دارد. از برک و سامات به این پرسش که آیا این به معنای رفتن دستیار گوگل به گورستان گوگل است پاسخ می دهند.

سامات می‌گوید “روش نگاه این است که جمینی یک تجربه اختیاری در تلفن است. فکر می‌کنم واضح است که با گذشت زمان جمینی پیشرفته‌تر و در حال تکامل است. ما امروز چیزی برای اعلام کردن نداریم، اما یک انتخاب برای مصرف‌کنندگان وجود دارد اگر آنها بخواهند به این دستیار جدید مجهز به هوش مصنوعی بپیوندند. آنها می‌توانند آن را امتحان کنند و ما می‌بینیم که مردم این کار را انجام می‌دهند و بازخوردهای بسیار خوبی دریافت می‌کنیم.”

در I/O، به‌روزرسانی‌های جمینی در اندروید برای آگاهی بیشتر زمینه‌ای، دقیقاً مانند Now on Tap تقریباً یک دهه پیش، است. در اواخر سال، شما قادر خواهید بود تصاویر را با جمینی تولید کنید و آنها را به برنامه‌هایی مانند Gmail یا Google Messages بکشید و رها کنید. برک نمونه‌ای از تولید تصویری از تنیس با خیارها توسط جمینی را نشان داد. او در حال پاسخ به متن کسی درباره بازی پیکلبال بود. او جمینی را که به عنوان یک پوشش بر روی برنامه پیام‌رسانی ظاهر شد، فراخوانی کرد، از آن خواست تا تصویر را تولید کند، و سپس یکی از تصاویر را کشید و در چت رها کرد. سپس او یک ویدئوی YouTube درباره قوانین پیکلبال را بالا آورد. جمینی را در حال تماشا فراخوانی کرد و پیشنهادی برای “پرسیدن از این ویدئو” را دریافت کرد. این به شما امکان می‌دهد جمینی را به کار گیرید تا اطلاعات خاصی در ویدئو را بدون اینکه خودتان کل ویدئو را بکاوید، پیدا کنید. (چه کسی وقت برای آن دارد؟) برک در مورد یک قانون خاص پیکلبال پرسید و جمینی سریعاً بر اساس ویدئو پاسخی را بیرون داد. این عملکرد “خلاصه‌سازی” شاخص بسیاری از ابزارهای هوش مصنوعی بوده است—خلاصه‌سازی PDFها، ویدئوها، یادداشت‌ها و داستان‌های خبری.

در مورد PDFها، به زودی شما قادر خواهید بود یک PDF را به جمینی پیوست کنید (یک پیشنهاد برای “پرسیدن از این PDF” وجود خواهد داشت) و جمینی می‌تواند اطلاعات خاصی را ارائه دهد، که شما را از نیاز به پیمایش چندین صفحه بی‌نیاز می‌کند. برک می‌گوید این ویژگی‌ها در طی چند ماه آینده به میلیون‌ها دستگاه عرضه می‌شوند، اگرچه ویژگی PDF فقط برای کاربران پیشرفته جمینی—افرادی که برای اشتراک 20 دلار در ماه برای دسترسی به قابلیت‌های پیشرفته مدل‌های هوش مصنوعی گوگل پرداخت می‌کنند—موجود خواهد بود.

جمینی به طور کلی “پیشنهادات پویا” بیشتری را بر اساس آنچه که بر روی صفحه اتفاق می‌افتد نشان خواهد داد. این‌ پیشنهادات دقیقاً بالای صفحه جمینی وقتی که دستیار را فعال می‌کنید ظاهر خواهند شد.

جمینی نانو ارتقاء می‌یابد

جمینی نانو مدل زبان گسترده گوگل است که ویژگی‌های خاصی را روی دستگاه در تلفن‌های خاصی مانند سری پیکسل 8، رنج سامسونگ گلکسی S24 و حتی پیکسل جدید 8A ارائه می دهد. اجرای این ویژگی‌ها به عنوان ویژگی‌های روی دستگاه به این معناست که داده‌ها نیازی به ارسال به ابر ندارند، که باعث می‌شود ویژگی‌ها خصوصی‌تر شوند. آن‌ها حتی می‌توانند به صورت آفلاین نیز کار کنند.

نانو در حال حاضر ویژگی‌هایی مانند خلاصه‌سازی در برنامه ضبط گوگل، که متون را خلاصه می‌کند، و پاسخ هوشمند در برنامه‌های پیام‌رسانی منتخب، که پاسخ‌های خودکار مناسبتر به پیام‌ها را ارائه می‌دهد، را فعال می کند. نسخه جدیدتر مدل گوگل—جمینی نانو با ساختار چندرسانه‌ای—امسال وارد بازار خواهد شد، و شروع آن با تلفن‌های پیکسل خواهد بود. این کمی طولانی است، اما کم و بیش به این معناست که جمینی نانو قادر خواهد بود کارهایی بیش از فقط پردازش متن انجام دهد.
برک می‌گوید “این یک مدل با 3.8 میلیارد پارامتر و چندرسانه‌ای است—این اولین مدل چندرسانه‌ای ساخته شده روی دستگاه است. این سیستم بسیار قدرتمند است. “
این مدل اکنون قدرت ویژگی خواننده صفحه نمایش TalkBack موجود در اندروید را خواهد داشت، که به کاربران نابینا و کم‌بینا کمک می‌کند تا درک کنند چه چیزی روی صفحه است. گفته می‌شود جمینی نانو توصیفات غنی‌تر و دقیق‌تری از آنچه در هر تصویر است ارائه خواهد داد. گوگل می‌گوید به طور متوسط، کاربران TalkBalk “روزانه 90 تصویر بدون برچسب” را مشاهده می‌کنند، اما جمینی می‌تواند این شکاف را پر کند زیرا قادر خواهد بود تصاویر روی صفحه را تجسم و درک کند و حتی زمانی که کاربر آفلاین است آن‌ها را توصیف کند.
گوگل در چند سال گذشته بسیاری از هوش مصنوعی خود را برای بهبود فناوری غربالگری تماس‌های خود به منظور محدود کردن تماس‌های رباتیک صرف کرده است، و جمینی نانو با سیستم چندرسانه‌ای به زودی به شما کمک خواهد کرد تا از تماس‌های تلفنی کلاهبرداری در زمان واقعی جلوگیری کنید. یک ویژگی جدید به نام تشخیص کلاهبرداری وجود خواهد داشت که در آن جمینی به تماس‌های تلفنی شما گوش می‌دهد، و اگر او عبارات یا درخواست‌هایی نامناسب از شخص در آن سوی خط را تشخیص دهد، هشداری صادر خواهد کرد که احتمالاً شما در وسط یک تماس تلفنی کلاهبرداری هستید. برک می‌گوید این مدل با داده‌هایی از وب‌سایت‌هایی مانند BanksNeverAskThat.com آموزش دیده است تا یاد بگیرد چه چیزهایی یک بانک از شما نمی‌پرسد—و انواع چیزهایی که کلاهبرداران معمولاً درخواست می‌کنند. او می‌گوید تمام این شنیدن و تشخیص روی دستگاه اتفاق می‌افتد، بنابراین خصوصی است. در مورد این “ویژگی اختیاری” امسال بیشتر خواهیم شنید.
اگر شما یک ماشین خریداری کنید، انتظار دارید ویژگی‌های استاندارد خاصی، مانند فرمان، داشته باشید. اما با هوش مصنوعی، یک جهش بزرگ این خواهد بود که آن ویژگی‌ها را بردارید—بدون فرمان، بدون رابط‌ها. سامات می گوید “برخی از افراد از آن هیجان‌زده می‌شوند، برخی دیگر هیجان‌زده نمی‌شوند.” او باور دارد که برخی از عملکردهایی که ما با تلفن‌های خود انجام می‌دهیم با کمک هوش مصنوعی بیش از همیشه کمک‌کننده خواهند بود—و ما می‌توانیم انتظار داشته باشیم که برخی از ویژگی‌ها به آن روش جایگزین شوند. او می گوید “با ادامه این روند، آنچه که ما خواهیم یافت—و ما اکنون این را در آزمایش‌های خودمان می‌بینیم—این است که فرصت‌هایی برای تغییر بنیادی رابط کاربری در برخی از مناطق وجود دارد که از دیدگاه ‘این واقعاً کمک‌کننده است’ به ‘در واقع، باید یک روش کاملاً جدید برای انجام این کار وجود داشته باشد.’ تغییر می کند. این یک زمان شگفت‌انگیز برای کار کردن بر روی این فناوری است.”