پژوهشگران وسیلهای پوشیدنی توسعه دادهاند که میتواند به کمک هوش مصنوعی لحن گوینده(شاد، غمگین و خنثی) را تشخیص دهد. این سامانه میتواند به عنوان یک مربی اجتماعی عمل کند و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود بخشد.
این یک واقعیت است که یک مکالمه را میتوان به شیوههای بسیار متفاوت تفسیر کرد. برای افراد مبتلا به اضطراب یا شرایط دیگری همچون آسپرگر، موقعیتهای اجتماعی میتواند بسیار استرسزا باشد. اما آیا روشی علمی برای اندازهگیری و درک متقابل ما وجود دارد؟
پژوهشگران علوم کامپیوتر و آزمایشگاه هوش مصنوعی (CSAIL) دانشگاه MIT میگویند که به یک راهکار بالقوه دست پیدا کردهاند: یک سامانه پوشیدنی هوش مصنوعی که میتواند بر اساس الگوهای گفتاری هر فرد پیش بینی کند که یک مکالمه شاد، غمگین و یا خنثی است.
توکا الحانی، دانشجوی کارشناسی ارشد است و با همکاری محمد قاسمی، دانشجوی دکترا این مقاله را نوشتهاند و آن را در کنفرانس انجمن پیشرفت هوش مصنوعی (AAAI) در سانفرانسیسکو ارائه خواهند داد. توکا الحانی میگوید: «تصور کنید که در پایان یک مکالمه، بتوانید به عقب بازگردید و لحظاتی را ببینید که مردم اطراف شما احساس اضطراب بیشتری دارند. کار ما یک گام در این جهت است که نباید دور از جهانی باشیم که در آن مردم میتوانند یک مربی اجتماعی هوش مصنوعی را در جیب خود داشته باشند».
این سامانه میتواند همزمان با اینکه یک شرکت کننده صحبت میکند، صدا را پردازش و متن را رونویسی کند و سیگنالهای فیزیولوژیکی را برای تعیین لحن کلی صحبتها با دقت ۸۳ درصد تجزیه و تحلیل کند. با استفاده از روش یادگیری عمیق، این سامانه همچنین میتواند یک نمره احساسی ویژه برای فواصل پنج ثانیهای از مکالمه فراهم کند.
قاسمی میگوید: «تا آنجا که ما میدانیم، این آزمایش نخستین آزمایشی است که هر دو دادههای فیزیکی و گفتاری را با روش انفعالی اما مقاوم جمعآوری میکند، حتی زمانی که افراد تعاملات بدون ساختار و طبیعی دارند. نتایج ما نشان میدهد که امکان طبقهبندی لحن احساسی مکالمات در زمان واقعی وجود دارد».
این گروه مشتاق است تا به این نکته نیز اشاره کند که سامانه آنها با حفظ حریم شخصی توسعه یافته است: الگوریتم قابل اجرا بر روی دستگاه کاربر از اطلاعات شخصی حفاظت میکند. الحانی میگوید که نسخه مصرف کننده نیازمند جلب رضایت از افراد درگیر در مکالمه است.
این پوشیدنی هوش مصنوعی چگونه کار میکند
مطالعات گذشته در این زمینه اغلب به صورت تصویری نشان میدهد که شرکت کنندگان «شاد» هستند یا «غمگین»، یا از آنها میخواهد تا به صورت مصنوعی حالت احساسی خاصی داشته باشند. اما این گروه در تلاش برای استخراج عواطف ذاتی بیشتر، از افراد خواست تا یک داستان شاد یا غمگین به انتخاب خود تعریف کنند.
شرکت کنندگان یک Samsung Simband پوشیدند. Samsung Simband یک دستگاه است که شکل موجهای فیزیولوژیکی با کیفیت بالا از اندازهگیری ویژگیهایی همچون حرکت، ضربان قلب، فشار خون، جریان خون و دمای پوست را دریافت میکند. این سامانه همچنین دادههای صوتی و رونوشت متن را میگیرد تا لحن، فرکانس گام، انرژی، و واژگان را تجزیه وتحلیل کند.
Björn Schuller استاد سامانههای پیچیده و هوشمند در دانشگاه پاساو در آلمان که در این پژوهش مشارکتی نداشته میگوید: «استفاده این گروه از دستگاههای مصرفی موجود در بازار برای جمعآوری دادههای فیزیولوژیکی و دادههای گفتار نشان میدهد که ما چقدر به داشتن چنین ابزارهایی در وسایل روزمره نزدیک هستیم. فناوری به زودی می تواند هوش هیجانی را درک کند و یا حتی خود «احساس» را».
گروه پس از ثبت ۳۱ گفتگوی چند دقیقهای مختلف، دو الگوریتم بر اساس این دادهها آموزش داد: یکی طبقهبندی ماهیت کلی یک مکالمه به صورت شاد یا غمگین و الگوریتم دوم هر پنجره زمانی پنج ثانیهای از مکالمه را به صورت مثبت، منفی یا خنثی طبقهبندی میکند.
الحانی اشاره میکند که در شبکههای عصبی سنتی، تمام ویژگیهای دادهها را برای الگوریتم استخراج میکنند. اما این گروه متوجه شد که میتواند عملکرد دستگاه را با سازماندهی ویژگیهای مختلف در لایههای گوناگون شبکه بهبود بخشد.
نتایج
در واقع یافتههای الگوریتم به خوبی با نکاتی که ما انسانها ممکن است انتظار داشته باشیم مطابقت دارد. برای نمونه، مکثهای طولانی و یک تن آوازی یکنواخت با داستان غمگین همراه بود، در حالی که الگوهای گفتاری متنوع و پر انرژیتر با داستانهای شادتر همراه بود. از نظر زبان بدن نیز داستان غمگین به شدت با افزایش بیقراری و فعالیت قلبی عروقی و همچنین حالتهای خاص مانند قرار دادن یک دست روی صورت ارتباط داشتند.
این مدل به طور متوسط میتواند خلق و خوی در هر بازه پنج ثانیهای را با دقتی که تقریباً ۱۸ درصد بالاتر از حالت تصادفی و ۷٫۵ درصد بهتر از روشهای موجود بود طبقه بندی کند. این گروه در کار آینده امیدوار است برای جمعآوری دادهها در یک مقیاس بسیار بزرگتر، از دستگاههای تجاری همچون Apple Watch که اجازه میدهد آنها به راحتی سامانه را درجهان گسترش دهند، استفاده کنند.
الحانی میگوید: «گام بعدی ما بهبود الگوریتم برای تک تک احساسات است. پس از آن دستگاه میتواند به جای مثبت یا منفی لحظههای خسته کننده، ناراحت و هیجان زده را مشخص کند. توسعه فناوری میتواند نبض احساسات و عواطف انسانی را در دست بگیرد و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود ببخشد».
در زمینه بازشناسی گفتار بیشتر بخوانید:
>>دستاورد تاریخی مایکروسافت با فناوری تشخیص گفتار محاوره همانند انسان
>>سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی میکند!
منبع: robohub