این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

پژوهشگران وسیله‌ای پوشیدنی توسعه داده‌اند که می‌تواند به کمک هوش مصنوعی لحن گوینده(شاد، غمگین و خنثی) را تشخیص دهد. این سامانه می‌تواند به عنوان یک مربی اجتماعی عمل کند و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود بخشد.

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

Samsung Simband

این یک واقعیت است که یک مکالمه را می‌توان به شیوه‌های بسیار متفاوت تفسیر کرد. برای افراد مبتلا به اضطراب یا شرایط دیگری همچون آسپرگر، موقعیت‌های اجتماعی می‌تواند بسیار استرس‌زا باشد. اما آیا روشی علمی برای اندازه‌گیری و درک متقابل ما وجود دارد؟

پژوهشگران علوم کامپیوتر و آزمایشگاه هوش مصنوعی (CSAIL) دانشگاه MIT می‌گویند که به یک راهکار بالقوه دست پیدا کرده‌اند: یک سامانه پوشیدنی هوش مصنوعی که می‌تواند بر اساس الگوهای گفتاری هر فرد پیش بینی کند که یک مکالمه شاد، غمگین و یا خنثی است.

توکا الحانی، دانشجوی کارشناسی ارشد است و با همکاری محمد قاسمی، دانشجوی دکترا این مقاله را نوشته‌اند و آن را در کنفرانس انجمن پیشرفت هوش مصنوعی (AAAI) در سانفرانسیسکو ارائه خواهند داد. توکا الحانی می‌گوید: «تصور کنید که در پایان یک مکالمه، بتوانید به عقب بازگردید و لحظاتی را ببینید که مردم اطراف شما احساس اضطراب بیشتری دارند. کار ما یک گام در این جهت است که نباید دور از جهانی باشیم که در آن مردم می‌توانند یک مربی اجتماعی هوش مصنوعی را در جیب خود داشته باشند».

این سامانه می‌تواند همزمان با اینکه یک شرکت کننده صحبت می‌کند، صدا را پردازش و متن را رونویسی کند و سیگنال‌های فیزیولوژیکی را برای تعیین لحن کلی صحبت‌ها با دقت ۸۳ درصد تجزیه و تحلیل کند. با استفاده از روش یادگیری عمیق، این سامانه همچنین می‌تواند یک نمره احساسی ویژه برای فواصل پنج ثانیه‌ای از مکالمه فراهم کند.

قاسمی می‌گوید: «تا آنجا که ما می‌دانیم، این آزمایش نخستین آزمایشی است که هر دو داده‌های فیزیکی و گفتاری را با روش انفعالی اما مقاوم جمع‌آوری می‌کند، حتی زمانی که افراد تعاملات بدون ساختار و طبیعی دارند. نتایج ما نشان می‌دهد که امکان طبقه‌بندی لحن احساسی مکالمات در زمان واقعی وجود دارد».

این گروه مشتاق است تا به این نکته نیز اشاره کند که سامانه آنها با حفظ حریم شخصی توسعه یافته است: الگوریتم قابل اجرا بر روی دستگاه کاربر از اطلاعات شخصی حفاظت می‌کند. الحانی می‌گوید که نسخه مصرف کننده نیازمند جلب رضایت از افراد درگیر در مکالمه است.

این پوشیدنی هوش مصنوعی چگونه کار می‌کند

مطالعات گذشته در این زمینه اغلب به صورت تصویری نشان می‌دهد که شرکت کنندگان «شاد» هستند یا «غمگین»، یا از آنها می‌خواهد تا به صورت مصنوعی حالت احساسی خاصی داشته باشند. اما این گروه در تلاش برای استخراج عواطف ذاتی بیشتر، از افراد خواست تا یک داستان شاد یا غمگین به انتخاب خود تعریف کنند.

شرکت کنندگان یک Samsung Simband پوشیدند. Samsung Simband یک دستگاه است که شکل موج‌های فیزیولوژیکی با کیفیت بالا از اندازه‌گیری ویژگی‌هایی همچون حرکت، ضربان قلب، فشار خون، جریان خون و دمای پوست را دریافت می‌کند. این سامانه همچنین داده‌های صوتی و رونوشت متن را می‌گیرد تا لحن، فرکانس گام، انرژی، و واژگان را تجزیه وتحلیل کند.

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

محمد قاسمی و توکا الحانی در حال مکالمه با این دستگاه پوشیدنی

Björn Schuller استاد سامانه‌های پیچیده و هوشمند در دانشگاه پاساو در آلمان که در این پژوهش مشارکتی نداشته می‌گوید: «استفاده این گروه از دستگاه‌های مصرفی موجود در بازار برای جمع‌آوری داده‌های فیزیولوژیکی و داده‌های گفتار نشان می‌دهد که ما چقدر به داشتن چنین ابزارهایی در وسایل روزمره نزدیک هستیم. فناوری به زودی می تواند هوش هیجانی را درک کند و یا حتی خود «احساس» را».

گروه پس از ثبت ۳۱ گفتگوی چند دقیقه‌ای مختلف، دو الگوریتم بر اساس این داده‌ها آموزش داد: یکی طبقه‌بندی ماهیت کلی یک مکالمه به صورت شاد یا غمگین و الگوریتم دوم هر پنجره زمانی پنج ثانیه‌ای از مکالمه را به صورت مثبت، منفی یا خنثی طبقه‌بندی می‌کند.

الحانی اشاره می‌کند که در شبکه‌های عصبی سنتی، تمام ویژگی‌های داده‌ها را برای الگوریتم استخراج می‌کنند. اما این گروه متوجه شد که می‌تواند عملکرد دستگاه را با سازماندهی ویژگی‌های مختلف در لایه‌های گوناگون شبکه بهبود بخشد.

نتایج

در واقع یافته‌های الگوریتم به خوبی با نکاتی که ما انسان‌ها ممکن است انتظار داشته باشیم مطابقت دارد. برای نمونه، مکث‌های طولانی و یک تن آوازی یکنواخت با داستان غمگین همراه بود، در حالی که الگوهای گفتاری متنوع و پر انرژی‌تر با داستان‌های شادتر همراه بود. از نظر زبان بدن نیز داستان غمگین به شدت با افزایش بی‌قراری و فعالیت قلبی عروقی و همچنین حالت‌های خاص مانند قرار دادن یک دست روی صورت ارتباط داشتند.

این هوش مصنوعی پوشیدنی لحن مکالمه را تشخیص می‌دهد!

نمودار تعیین احساسات در زمان واقعی

این مدل به طور متوسط می‌تواند خلق و خوی در هر بازه پنج ثانیه‌ای را با دقتی که تقریباً ۱۸ درصد بالاتر از حالت تصادفی و ۷٫۵ درصد بهتر از روش‌های موجود بود طبقه بندی کند. این گروه در کار آینده امیدوار است برای جمع‌آوری داده‌ها در یک مقیاس بسیار بزرگتر، از دستگاه‌های تجاری همچون Apple Watch که اجازه می‌دهد آنها به راحتی سامانه را درجهان گسترش دهند، استفاده کنند.

الحانی می‌گوید: «گام بعدی ما بهبود الگوریتم برای تک تک احساسات است. پس از آن دستگاه می‌تواند به جای مثبت یا منفی لحظه‌های خسته کننده، ناراحت و هیجان زده را مشخص کند. توسعه فناوری می‌تواند نبض احساسات و عواطف انسانی را در دست بگیرد و به طرز چشمگیری چگونگی ارتباط ما با یکدیگر را بهبود ببخشد».


در زمینه بازشناسی گفتار بیشتر بخوانید:

>>دستاورد تاریخی مایکروسافت با فناوری تشخیص گفتار محاوره همانند انسان

>>سامانه هوش مصنوعی دانشگاه آکسفورد بهتر از انسان لب خوانی می‌کند!


منبع: robohub

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *