هوش مصنوعی و تشخیص منظر صوتی محیط در گوشی های هوشمند - مجلۀ فناوریهای توان‌افزا و پوشیدنی

محیط پرسروصدا و استرس زا؟ یا محیط پرجنب‌وجوش و سرگرم‌کننده؟ گوشی هوشمند شما می‌تواند تفاوت محیط را بر اساس صدا تشخیص دهد. جدیدترین تراشه‌ی گوشی هوشمند از شرکت کوالکام (Qualcomm) قادر است منظر صوتی را شناسایی کند. منظر صوتی به تمام صداهای موجود در یک مکان اشاره دارد که توسط انسان دریافت و درک می‌شود. با مجله‌ی فناوری‌های توان‌افزا و پوشیدنی همراه باشید.

تعریف منظر صوتی (soundscape)

انسان فضاها و محیط اطراف خود را نه تنها با حس بینایی بلکه با حواس دیگر از جمله حس شنوایی تجربه می‌کند. “منظرصوتی” فضاها ترجمه‌ی واژه انگلیسی “soundscape” از عوامل موثر شکل گیری تصویر ذهنی انسان است. صدا ما را قادر به درک و حس اتفاقات پیرامون ما می‌کند و جزیی از تجربه ما از محیط است.

سامانه‌ی تشخیص منظر صوتی کوالکام

گوشی‌های هوشمند در سال‌های اخیر، توانایی شنیدن صداهای فعال کننده مثل “Hey Siri” و “OK Google” را بدون استفاده زیاد از باتری دارند. چنین سامانه‌های فعال‌کننده‌ای در پردازنده‌های مخصوص کم‌مصرف اجرا می‌شوند که در تراشه اصلی گوشی هوشمند تعبیه شده‌اند.

سامانه‌های بیدارکننده (wake-up system) بر اساس الگوریتم‌های شبکه‌ی عصبی آموزش دیده‌اند. این سامانه‌ها طیف گسترده‌ای از صداها و لهجه‌ها و الگوهای گفتاری را تشخیص می‌دهند. نکته اینجاست که تنها قادرند کلمات فعال‌کننده‌ی خود را شناسایی کنند. الگوریتم‌های تشخیص گفتار تعمیم یافته به پردازنده‌های قدرتمندتر از گوشی‌های هوشمند موجود نیاز دارند.

هوش مصنوعی استارتاپ Audio Analytic می‌تواند منظر صوتی محیط را به خوبی صداهای منفرد و تک در محیط تشخیص دهد.

نخستین برنامه‌ی کاربردی برای سیستم تشخیص صدا، هوش مصنوعی تشخیص منظر صوتی (Acoustic Scene Recognition AI) نام گرفته است. این برنامه توسط استارتاپ Audio Analytic فراهم شده است. به جای شنیدن تنها یک صدا، فناوری تشخیص منظر صوتی، خصوصیات همه صداهای محیطی را می‌شنود و محیط را بر اساس آن طبقه‌بندی می‌کند. به عنوان نمونه محیط پرآشوب، محیط پرجنب و جوش، محیط کسل‌کننده، محیط آرام.

به تازگی شرکت کوالکام اعلام کرد جدیدترین تراشه این شرکت با نام Snapdragon 8885G با نرم‌افزاری همراه است که موتور تشخیص واژه‌های بیدار‌کننده را در خود جای داده است. Audio Analytic استارتاپ انگلیسی ai3-nano از پردازنده‌ی AI با توان مصرفی پایین و با هدف شنیدن صداهای فراتر از گفتار استفاده خواهد کرد.

برای آموزش شبکه‌ی عصبی از ۳۰ میلیون صدای ضبط شده استفاده شد. چگونگی آگاهی گوشی‌های هوشمند آینده از صدای محیط اطراف به سازنده‌های گوشی مبتنی بر تراشه کوالکام بستگی دارد. در این روش از الگوریتم‌های یادگیری عمیق استفاده می‌شود تا صدا را به مولفه‌های استاندارد آن تفکیک کنند.

کاربرد سامانه‌ی تشخیص منظر صوتی

دو جنبه برای هر محیط وجود دارد. یکی به تعداد صداهای تکی که در محیط هست اشاره دارد که eventfulness گفته می‌شود. دیگری چگونگی حس خوشایند ما نسبت به صداها است. برای نمونه وقتی برای پیاده‌روی و دویدن بیرون می‌رویم و صدای پرندگان را می‌شنویم. این صدا برای ما خوشایند است و به محیط پرجنب وجوش دسته‌بندی می‌شود. محیطی که صداهای بسیاری در آن باشد ولی ناخوشایند است در دسته محیط پرهرج و مرج طبقه‌بندی می‌شود.

بسته به برنامه‌های کاربردی که بر انواع گوشی‌های هوشمند در دسترس است، گوشی‌ها می‌توانند به صداهایی همچون صدای زنگ در، جوشیدن آب، گریه‌ی کودک، صدای ضربه‌ی انگشتان بر صفحه کلید هنگام تایپ واکنش نشان دهند. مجموعه‌ای از ۵۰ صدا که انتظار می‌رود در آینده‌ی نزدیک به ۱۵۰ تا ۲۰۰ صدا افزایش ‌یابد.

از ایده‌های کاربردی این سامانه‌ی تشخیص منظر صوتی می‌توان به موارد زیر اشاره کرد:

صدای قطار کسل‌کننده است. بنابراین ممکن است بخواهید میزان حدف نویز هدفون خود را افزایش دهید و صدای قطار را فیلتر کنید. اما وقتی از تونل رد می‌شوید به شفافیت صدای بیشتری نیاز دارید و میزان حذف نویز باید کاهش یابد.

یکی دیگر از کاربردها، انتخاب خودکار صدای اعلان‌ها به صورت لرزش گوشی یا زنگ زدن بسته به نوع محیط است.

یکی دیگر از کاربردها، media tagging است. در این کاربرد، ویدیوها بر اساس صدا جست‌و جو می‌شوند. برای نمونه می‌توان ویدیوی کودکی که می‌خندد را به راحتی پیدا کنیم.

از کاربردهای مهم این فناوری، کمک به افراد کم ‍‌شنوا است. با این سیستم، کاربر به راحتی صدای زنگ در و صدای سگ و حتی زنگ خطر دود و آتش‌سوزی را درک ‌می کند.

حتی با تشخیص صدای افراد در خانه، سیستم با تشخیص بیرون رفتن خانواده، سامانه‌ی امنیتی را فعال می‌کند و یا روشنایی و وسایل گرمایشی و سرمایشی را تنظیم می‌کند.

بیشتر بخوانیم:

>>بهبود زندگی افراد دارای اختلال بینایی و شنوایی با ترکیب فناوری های کمکی
>>آینده برای متخصصین علوم داده بسیار روشن است

منبع:spectrum.ieee

«استفاده و بازنشر مطالب تنها با ذکر لینک منبع و نام (مجله فناوریهای توان افزا و پوشیدنی) مجاز است.»

تعریف منظر صوتی (soundscape)

سامانه‌ی تشخیص منظر صوتی کوالکام

کاربرد سامانه‌ی تشخیص منظر صوتی

بیشتر بخوانیم:

در همین زمینه

مشعل المپیک 2024 توسط ورزشکار پاراپلژیک با ربات اسکلت بیرونی حمل شد

13 نمونه فناوری‌ پوشیدنی در مراقبت‌های بهداشتی و تجهیزات پزشکی پوشیدنی(بخش دوم)

اسکلت بیرونی کودکان

دیدگاهتان را بنویسید لغو پاسخ