آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیتهای بیشماری از جمله کمک به ناشنوایان برای درک مکالمات پیرامونشان میتواند استفاده شود. سامانه جدید هوش مصنوعی دانشگاه آکسفورد قادر است بهتر از انسان لب خوانی کند.
حتی لب خوانهای حرفهای هم تنها ۲۰ تا ۶۰٪ از آنچه که یک فرد میگوید را تشخیص میدهند. تشخیص حرکت لبهای فردی که با سرعت طبیعی صحبت میکند فوق العاده دشوار است به ویژه از راه دور و یا زمانی که لب پنهان باشد. لب خوانی تنها یک نقشه در NCIS (سریال آمریکایی) نیست، بلکه ابزاری ضروری برای درک جهان توسط افراد دچار اختلال شنوایی است و اگر قابل اعتماد و خودکار باشد میتواند به میلیونها انسان کمک کند.
دانشگاه آکسفورد با کمک مالی DeepMind در مقالهای یک سیستم هوش مصنوعی به نام LipNet را معرفی و ویدئویی را منتشر کرده که در آن افرادی صحبت میکنند و سیستم، متن تطبیقی با حرکت دهان آنها را با دقت ۹۳٫۴٪ مشخص میکند.
سیستمهای قبلی، کلمه به کلمه کار میکردند و دقت آنها ۷۹٫۶٪ بود. پژوهشگران آکسفورد میگویند موفقیت این سیستم جدید به دلیل روش منحصر بفرد تفکر در مورد این مسئله است که به جای آموزش هر حرکت دهان با استفاده از یک سامانه واج بصری به AI، پژوهشگران سیستمی برای پردازش تمام جملات در یک زمان ساختند. این روش به AI اجازه میدهد که خود آن حرفی که مربوط به هر حرکت دهان است را تشخیص دهد.
پژوهشگران برای آموزش سیستم نزدیک به ۲۹،۰۰۰ فیلم برچسب دار شده با طول سه ثانیه را به هوش مصنوعی نشان دادند. برای اینکه ببینید چگونه لب خوانهای انسانی همان کار را انجام میدهند، این گروه سه نفر از اعضای دانشجویان جامعه معلولین آکسفورد را استخدام و آنها را با ۳۰۰ فیلم تصادفی شبیه به آنهایی که برای آموزش سیستم AI استفاده شد، آزمایش کردند. این افراد نرخ خطای متوسط ۴۷٫۷٪ داشتند، در حالی که نرخ خطای هوش مصنوعی تنها ۶٫۶ درصد بود.
با وجود موفقیت این پروژه، سیستم هنوز هم برخی از محدودیتهای پژوهش مدرن هوش مصنوعی را دارد. این گروه هنگام آموزش AI برای لب خوانی از یک مجموعه فیلمهای ویژه استفاده کردند. هر شخص رو به جلو بود و به خوبی و واضح یک ساختار جمله استاندارد را بیان میکرد.
به عنوان مثال: «Place blue in m 1 soon » یکی از عبارات استاندارد سه ثانیهای مورد استفاده در آموزش و متشکل از یک دستور، رنگ، حرف اضافه، عدد از ۱تا۱۰ و قید بود. همه جملات این الگو را دنبال میکنند. بنابراین دقت فوق العادهی AI ممکن است به این علت باشد که آن در شرایط فوقالعادهای آموزش دیده و تست شده است. برای نمونه اگر بخواهید فیلمهایی از یوتیوب را لب خوانی کنید، نتایج احتمالاً دقت بسیار کمتری دارند.
برخی از گفتمانهای عمومی جالب در مورد مقالات AI در گستره وسیعی از توییتر اتفاق افتاد. هنگامی که دیگر پژوهشگران اشاره کردند که استفاده از چنین فیلمهای آموزشی تخصصی در دنیای واقعی کاربردی ندارد، نویسنده ناندو د فریتاس از نتایج مقاله خود دفاع و اشاره کرد گروهش از مجموعه فیلمهای دیگری نیز استفاده کرده که بسیار نویزی هستند. د فریتاس نوشت: مطمئن است که با توجه به اطلاعات صحیح استفاده شده این نتایج امری قابل انتظار بوده است.
به گفته جک کلارک از آزمایشگاه هوش مصنوعی OpenAI، برای انجام اینکار در دنیای واقعی سه بهبود عمده باید انجام شود: استفاده از ویدئوهای بسیاری که مردم در موقعیتهای دنیای واقعی بیان میکنند، قابلیت لب خوانی از زوایای متعدد و هوش مصنوعی بتواند انواع گوناگونی از عبارتها را پیش بینی کند. کلارک نوشت: «فناوری چنین ابزاری را دارد، هر چند به نظر میرسد که ساخت آن اجتناب ناپذیر است».
آموزش هوش مصنوعی برای لب خوانی یک مهارت پایه است که در موقعیتهای بیشماری میتواند استفاده شود. یک سیستم مشابه میتواند به ناشنوایان برای درک مکالمات پیرامون کمک کند و یا اشکال دیگری از AI را تقویت کند که به صدای ویدئو گوش میدهد و به سرعت شرح تصاویر را تولید میکند.
منبع: QUARTZ