زمانی که انسانها سعی میکنند شیای را چنگ زده و در دست نگه دارند از ترکیبی از حواس استفاده میکنند که مهمترین آن حس بینایی و لامسه است. اما تاکنون بیشترین تلاش برای حل مشکل چنگ زدن در رباتها بر روی استفاده از بینایی به تنهایی متمرکز بوده که منجر به توانایی کامل چنگ زدن رباتیک نمیشود. آینده رباتیک افزون بر بینایی به هوش لمسی هم نیاز دارد.
کار ساده برداشتن اشیا به این آسانی که به نظر میرسد نیست، نه دست کم برای رباتها. متخصصین رباتیک در تلاشند رباتی توسعه دهند که بتواند هر شیای را بردارد. اما امروزه بیشتر رباتها «چنگ زدن کور» را انجام میدهند به این معنی که آنها طوری برنامهریزی شدهاند تا همیشه یک شی را از یک مکان بردارند. اگر هر چیزی مانند شکل، بافت و یا مکان جسم تغییر کند ربات نمیداند چگونه عمل کند و تلاش برای فهمیدن به احتمال زیاد با شکست مواجه خواهد شد.
رباتها برای چنگ زدن هر شی به طور کامل و در نخستین تلاش هنوز راه طولانی در پیش دارند. چرا حالت چنگ زدن چنین مشکل بزرگی است؟ زمانی که افراد سعی میکنند چیزی را چنگ بزنند و شیئی را در دست بگیرند از ترکیبی از حواس استفاده میکنند که نخستین آنها حواس بصری و لمسی است. اما تاکنون بیشترین تلاش برای حل مشکل چنگ زدن در استفاده از بینایی به تنهایی متمرکز بوده است.
این رویکرد احتمالاً نتایجی که به طور کامل مطابق با قابلیتهای انسانی باشد، در پی ندارد. زیرا اگر چه بینایی برای چنگ زدن مهم است اما به سادگی نمیتواند همه آنچه که برای چنگ زدن لازم دارید را به شما بگوید. ملاحظه کنید که استیون پینکر چگونه همه چیزی که انسان با حس لامسه انجام میدهد را توصیف میکند: وی در کتاب «چگونه ذهن کار میکند» نوشت: «تصور کنید یک پاکت شیر را بلند میکنید. اگر بیش از حد آن را شل نگه دارید، میافتد و اگر خیلی محکم نگه دارید، له میشود. شما حتی میتوانید با استفاده از نوک انگشتان خود اندازه بگیرید که چه مقدار شیر داخل آن است!». چون ربات فاقد این قابلیتهای سنجش است، هنوز هم فاصله بسیاری با انسانها در انجام سادهترین کار مانند برداشتن و گذاشتن اشیا دارد.
من مدت طولانی پیشرفتهای قابل توجه در روشهای چنگ زدن را دنبال کردم و متقاعد شدم که تمرکز فعلی روی بینایی رباتیک منجر به توانایی کامل چنگ زدن نمیشود. آینده رباتیک علاوه بر بینایی نیاز به چیز دیگری دارد: هوش لمسی
به عنوان یک پژوهشگر که گروه لمسی و مکاترونیک در آزمایشگاه رباتیک و کنترل (CoRo) آموزشگاه École de Technologie Supérieure در مونترال کانادا را رهبری میکند و به عنوان یکی از بنیانگذاران Robotiq، یک شرکت رباتیک در Québec City، من مدت طولانی پیشرفتهای قابل توجه در روشهای چنگ زدن را دنبال کردم و متقاعد شدم که تمرکز فعلی روی بینایی رباتیک منجر به توانایی کامل چنگ زدن نمیشود. آینده رباتیک علاوه بر بینایی نیاز به چیز دیگری دارد: هوش لمسی
مطالعات پیشین روی بینایی متمرکز شدهاند نه هوش لمسی
تاکنون بسیاری از پژوهشها در روش چنگ زدن رباتیک، اطلاعات بازخورد بصری را هدف خود قرار دادهاند. یکی از راههای انجام این کار، از طریق تطبیق با پایگاه دادههای تصویری است که در چالش میلیونها شی در آزمایشگاه انسانها تا رباتهای براون مورد استفاده قرار گرفته است. ایده این است که ربات از یک دوربین برای تشخیص شی هدف و نظارت بر حرکات خود زمانی که در تلاش است تا شی را چنگ بزند، استفاده کند. حین انجام این کار، ربات اطلاعات بصری واقعی را با اسکن سه بعدی تصاویر ذخیره شده در پایگاه داده مقایسه میکند. هنگامی که ربات تطبیق را پیدا کند درواقع الگوریتم مناسب برای وضعیت فعلی خود را پیدا کرده است.
در حالی که رویکرد براون در تلاش است تا دادههای بصری برای انواع اشیاء را جمعآوری کند، متخصصین رباتیک بعید میدانند که بتوان یک پایگاه داده بصری برای هر موردی که ربات ممکن است با آن روبرو شود، ساخت. علاوه براین، رویکرد تطبیق با پایگاه داده شامل محدودیتهای محیطی نمیشود.
پژوهشگران دیگری از روش یادگیری ماشین برای بهبود چنگ زدن رباتیک استفاده کردند. این روش به رباتها اجازه میدهد از تجربیات خود برای یادگیری استفاده کنند، بنابراین در نهایت رباتها میتوانند بهترین روش برای چنگ زدن اشیا را خود کشف کنند. برخلاف روش تطبیق با پایگاه داده، یادگیری ماشین نیاز به دانش پیشین کمی دارد و لازم نیست ربات به یک پایگاه داده تصویری از پیش ساخته دسترسی داشته باشد بلکه تنها به مقدار زیادی تمرین نیاز دارد.
اوایل سال جاری گزارش شد که گوگل تجربه ترکیب یک سامانه بینایی با یادگیری ماشین داشته است. در گذشته پژوهشگران در تلاش بودند تا بوسیله آموزش رباتها برای دنبال کردن روشهایی که انسانها فکر میکردند بهترین روش است، توانایی چنگ زدن را بهبود ببخشند. بزرگترین موفقیت گوگل این بود که نشان داد چگونه ربات میتواند خودش با استفاده از یک شبکه عمیق عصبی پیچیده، یک سامانه بینایی و مقدار بسیاری از دادهها (۸۰۰،۰۰۰ تلاش برای چنگ زدن) بر اساس آنچه از تجارب گذشته به دست آمده، آموزش ببیند.
نتایج آنها بسیار امیدوار کننده به نظر میرسد: از آنجا که پاسخ ربات از پیش برنامهریزی نشده بود، میتوان گفت همه پیشرفتها به طور طبیعی از یادگیری ناشی شده است. اما محدودیتهایی در مورد آنچه که بینایی میتواند به ربات بگوید وجود دارد و گوگل ممکن است در حال حاضر به آن حد فاصل رسیده باشد.
تمرکز صرفاً بر روی بینایی منجر به مشکلات خاصی میشود
گوگل و دیگران به سختی میتوانند با بینایی به تنهایی بر چالشها غلبه کنند. سه دلیل عمده وجود دارد: نخست بینایی موضوعی است که محدودیتهای فنی متعددی دارد. حتی سیستمهای بینایی پیشرفته نیز مشکلاتی برای درک اشیا در شرایط نوری خاص مانند انعکاس و رنگ با کنتراست کم و یا هنگامی که شی بیش از حد نازک است، دارد.
بینایی به تنهایی برای ماهیت این مسئله مناسب نیست: چنگ زدن یک موضوع تماسی و وارد کردن نیرو است که با بینایی به تنهایی نمیتوان آن را تحت نظارت داشت. در بهترین حالت، بینایی میتواند ربات را از تنظیمات و حالت انگشتها آگاه کند که به احتمال زیاد موفق شود اما در نهایت ربات به اطلاعات لمسی نیاز دارد.
دوم، بسیاری از چنگ زدنها شامل حالتهایی است که دیدن کل جسم دشوار است، به طوری که بینایی اغلب نمیتواند تمام اطلاعاتی که ربات ممکن است نیاز داشته باشد را ارائه دهد. اگر ربات در تلاش باشد تا یک بلوک چوبی را از روی میز بردارد، یک سیستم بینایی ساده فقط بالای بلوک را میبیند و ربات هیچ ایدهای برای اینکه آن طرف بلوک چگونه است ندارد.
در نهایت و از همه مهمتر، بینایی به سادگی برای ماهیت این مسئله مناسب نیست: چنگ زدن یک موضوع تماسی و وارد کردن نیرو است که با بینایی به تنهایی نمیتوان آن را تحت نظارت داشت. در بهترین حالت، بینایی میتواند ربات را از تنظیمات و حالت انگشتها آگاه کند که به احتمال زیاد موفق شود اما در نهایت ربات به اطلاعات لمسی نیاز دارد تا مقادیر فیزیکی که با چنگ زدن در ارتباط است را بفهمد.
چگونه هوش لمسی کمک میکند
حس لامسه نقش محوری برای انسان حین چنگ زدن اشیا بازی میکند. برای افراد قطع عضو که دست خود را از دست دادهاند یکی از بزرگترین مشکلات، ناتوانی در احساس چیزی است که آنها با استفاده از دستگاههای پروتز لمس میکنند. افراد قطع عضو بدون حس لامسه باید حین چنگ زدن و برداشتن اشیا از حس بینایی خود استفاده کنند، در صورتی که یک فرد سالم و بدون قطع عضو میتواند اشیا را حتی بدون نگاه کردن، بردارد.
آنچه مورد نیاز است یک راه برای تبدیل این دادههای خام و سطح پایین به اطلاعات سطح بالا که منجر به عملکرد بهتر چنگ زدن خواهد شد. هوش لمسی میتواند به ربات توانایی پیش بینی چنگ زدن موفق را با استفاده از لمس کردن، تشخیص لغزش جسم و شناسایی اشیاء بر اساس نشانههای لمسی را بدهد.
پژوهشگران از نقش حیاتی حسگر لمسی در چنگ زدن آگاه هستند و در ۳۰ سال گذشته تلاشهای بسیاری برای ساخت یک حسگر لمسی که بتواند توانایی انسان را تقلید کند، انجام دادند. با این حال سیگنالهای فرستاده شده توسط یک حسگر لمسی، پیچیده است و ابعاد بسیاری دارد. آنچه مورد نیاز است یک راه برای تبدیل این دادههای خام و سطح پایین به اطلاعات سطح بالا که منجر به عملکرد بهتر چنگ زدن خواهد شد. هوش لمسی میتواند به ربات توانایی پیش بینی چنگ زدن موفق را با استفاده از لمس کردن، تشخیص لغزش جسم و شناسایی اشیاء بر اساس نشانههای لمسی بدهد.
من و همکارانم در آزمایشگاه CoRo در حال ایجاد بلوکهایی هستیم که هسته اصلی این هوش جدید را تشکیل خواهد داد. یکی از تحولات اخیر، یک الگوریتم یادگیری ماشین است که با استفاده از تصاویر فشار، چنگ زدن موفق و شکست خورده را پیش بینی میکند. سیستم توسعه یافته توسط دین کاکبرن و ژان فیلیپ روبرگ یک تلاش برای نزدیک کردن سطح توانایی چنگ زدن ربات به انسان است.
این جایی است که به اعتقاد من آزمایشگاه CORO پیروز شده است. با ترکیب یک دست رباتیک از Robotiq با کنترل UR10 از رباتهای جهانی و اضافه کردن چند حسگر لمسی چند حالته و یک سامانه بینایی مبتنی بر Kinect (تنها با هدف تعیین مرکز هندسی هر شی استفاده شده)، رباتی به دست آمده که قادر به بلند کردن انواع اشیاء و استفاده از این دادهها برای یادگیری بود. در نهایت، سامانهای ایجاد شده که ۸۳ درصد مواقع چنگ زدن را به درستی انجام میدهد.
در همین زمان یک گروه دیگر در آزمایشگاه CoRo، به رهبری ژان فیلیپ روبرگ، به طور خاص روی تشخیص لغزش متمرکز شده بودند. ما انسانها میتوانیم زمانی که یک شی در حال لغزیدن از چنگمان است را به سرعت تشخیص دهیم چون انگشتان ما شامل گیرندههای مکانیکی سریع تطبیقی هستند. این گیرندهها در پوست ما هستند و تغییرات فشار و ارتعاش را به سرعت تشخیص میدهند. اشیا هنگام لغزیدن ارتعاشاتی در سطح دست تولید میکنند بنابراین پژوهشگران تصاویر لرزش ورودی (طیف نگارهها) را به جای تصاویر فشار به الگوریتم یادگیری ماشین دادند. با این روش سامانه خود قادر به یادگیری ویژگیهای تصاویر لرزش است که با لغزش جسم مطابقت دارد و با دقت ۹۲ درصد، لغزش اجسام را شناسایی میکرد.
از آنجایی که لغزش تنها یک سری ارتعاش است ممکن است به نظر آسان رسد که ربات متوجه لغزش شود اما چگونه میتوان به ربات تفاوت بین ارتعاشاتی که هنگام لغزش از دست ربات اتفاق میافتد و ارتعاشاتی که به دلیل کشیدن شی روی سطح جسمی مانند میز به وجود میآید را آموخت؟ فراموش نکنید که ارتعاشات کوچکی نیز هنگام حرکت دست ربات بوجود میآید. این سه رویداد مختلف سیگنالهای مشابهی دارند اما نیاز به واکنشهای بسیار متفاوتی از جانب ربات دارد. تمیز دادن بین این حوادث جایی است که از یادگیری ماشین استفاده میشود.
دو گروه CORO هنگامی که از یادگیری ماشین استفاده کردند، یک چیز مشترک داشتند: هیچ یک از آنها از ویژگیهای دستی برای الگوریتم یادگیری ماشین استفاده نکردند. به عبارت دیگر سیستم خود مشخص میکند چه چیزی مربوط به طبقهبندی لغزش است. به جای تکیه بر حدس پژوهشگران در مورد آنچه که بهترین شاخص ممکن است.
«ویژگیهای سطح بالا» در گذشته همیشه دستی بودند به این معنی که پژوهشگران به صورت دستی ویژگیهایی را انتخاب میکردند که بتواند بین انواع حوادث لغزش تمایز ایجاد کند (یا بین یک چنگ زدن خوب و بد). اما در واقع زمانی که به ربات خود اجازه یادگیری دهند به مراتب دقیقتر است چون حدس پژوهشگران همیشه با واقعیت مطابقت ندارد.
به ویژه کدگذاری تنک برای این منظور مفید است. این یک الگوریتم یادگیری ویژگی بدون نظارت است و با ایجاد یک دیکشنری تنک کار میکند که برای نشان دادن دادههای جدید استفاده میشود. نخست دیکشنری با در نظر گرفتن تصاویر اولیه فشار به عنوان ورودی یک الگوریتم کدگذاری تنک، ایجاد میشود. این دیکشنری ایجاد شده، نمایشی از ویژگیهای سطح بالا است. سپس هنگامی که دادههای جدید از تلاش برای چنگ زدن به دست میآید، دیکشنری برای تبدیل دادههای خام جدید به نمایشی از آن دادهها، که بردار تنک نامیده میشود، استفاده میشود. در نهایت، بردارهای تنک بر اساس علل مختلف ارتعاشات (یا یک چنگ زدن خوب و بد) گروه بندی میشوند.
دو گروه آزمایشگاه CORO در حال حاضر راههایی برای به روز رسانی خودکار الگوریتم کدگذاری تنک را آزمایش میکنند، به طوری که هر تلاش برای چنگ زدن به ربات کمک خواهد کرد تا پیش بینی بهتری انجام دهد. ایده این است که در نهایت ربات قادر به استفاده از این اطلاعات برای تنظیم رفتار خود در طول چنگ زدن خواهد بود. این پژوهش یک نمونه بزرگ از همکاری هوش لمسی و بصری است تا به ربات در یادگیری چگونگی چنگ زدن اشیاء مختلف کمک کند.
آینده هوش لمسی
نکته کلیدی این پژوهش این نیست که بینایی را کنار بگذاریم. بینایی هنوز هم سهم عمدهای در چنگ زدن دارد. اما در حال حاضر بینایی مصنوعی به یک سطح معینی از توسعه رسیده است، بهتر است به جای ادامه تأکید روی بینایی به تنهایی، بر روی توسعه جنبههای جدیدی از هوش لمسی تمرکز کنیم.
روبرگ از آزمایشگاه CORO پتانسیل پژوهشهای بینایی را با هوش لمسی طبق قانون ۸۰-۲۰ پارتو مقایسه میکند: در حال حاضر که جامعه رباتیک به نخستین ۸۰ درصد هوش بصری تسلط پیدا کرده، بسیار دشوار است تا ۲۰ درصد آخر به انجام رسد و کمک بسیاری نیز به چنگ زدن اشیا نمیکند. در مقابل، رباتیک هنوز روی نخستین ۸۰ درصد سنجش لمسی کار میکند. بنابراین تکمیل این ۸۰ درصد نخست نسبتاً آسان خواهد بود و پتانسیل ایجاد سهم فوق العادهای در توانایی چنگ زدن رباتها را دارد.
ما هنوز هم ممکن است راه طولانی تا روزی که یک ربات بتواند هر شی را از طریق لمس شناسایی کند داشته باشیم، چه رسد به تمیز کردن اتاق، اما هنگامی که آن روز فرا رسد، ما مطمئناً باید از پژوهشگران هوش لمسی تشکر کنیم.
در زمینه لمس کردن اجسام در رباتیک بیشتر بخوانید
>> حسگر پوستی گرم رباتها را قادر میسازد با لمس کردن اجسام را شناسایی کنند
منبع: spectrum.ieee.org