شرکت مایکروسافت به موفقیت بزرگی در بازشناسی گفتار و هوش مصنوعی دست یافت: یک فناوری نوین که کلمات یک مکالمه را همچون انسان تشخیص میدهد.
در مقالهای که مدتی پیش منتشر شد، یک گروه از پژوهشگران و مهندسان هوش مصنوعی مایکروسافت گزارش دادند که یک سیستم تشخیص گفتار ایجاد کردهاند که میزان خطایی برابر یا حتی کمتر از رونویسهای حرفهای دارد. پژوهشگران گزارش دادند که تنها در ماه اخیر نرخ خطای تشخیص کلمه (WER) از ۶٫۳ درصد به ۵٫۹ درصد کاهش یافته است.
زمانی که از افرادی خواسته شد تا همان مکالمه را رونویسی کنند به میزان خطایی برابر ۵٫۹ درصد رسیدند که کمترین مقدار ثبت شده تاکنون در صنعت استانداردهای بازشناسی گفتار است.
Xuedong Huang رئیس دانشمندان بازشناسی گفتار شرکت مایکروسافت میگوید: «ما به برابری با انسان رسیدهایم و این یک دستاورد تاریخی است».
نقطه عطف به این معنی است که برای نخستین بار یک رایانه میتواند کلمات یک مکالمه را همچون انسان تشخیص دهد. در عمل گروه به هدفی که کمتر از یک سال پیش در نظر داشت رسید و حتی قدم فراتر از انتظارات گذاشت.
Harry Shum معاون رئیس اجرایی که گروه تحقیق و هوش مصنوعی مایکروسافت را رهبری میکند، گفت: «حتی پنج سال پیش هم تصور نمیکردم که ما بتوانیم این کار را به انجام برسانیم. من حتی تصور نمیکردم که این امکانپذیر باشد»
نقطه عطف پژوهش پس از چند دهه تحقیق در بازشناسی گفتار، از اوایل دهه ۱۹۷۰ با DARPA و آژانس ایالات متحده که موظف به ساخت پیشرفتهای فناوری در جهت منافع امنیت ملی بود، آغاز شد. در طول این دههها بسیاری از شرکتهای فناوری بزرگ و سازمانهای تحقیقاتی به پیگیری این موضوع پرداختند.
Geoffrey Zweig که گروه پژوهشی گفتار و گفت و گو را مدیریت میکند، گفت: «این دستاورد نقطه اوج بیش از بیست سال تلاش است».
این نقطه عطف کاربرد گستردهای برای مصرف کننده و کسب و کار محصولاتی است که میتواند به طور قابل توجهی با تشخیص گفتار تقویت شوند که شامل دستگاههای سرگرمی مصرف کننده مانند Xbox، ابزار دسترسی همچون تبدیل لحظهای گفتار به متن و دستیاران دیجیتال شخصی مانند کورتانا است.
Shum گفت: «این فناوری، کورتانا را قدرتمندتر خواهد کرد و یک دستیار واقعاً هوشمند را ایجاد میکند»
برابری نه کمال
این فناوری و نتایج به این معنی نیست که رایانه میتواند هر کلمه را به طور کامل تشخیص دهد. در واقع انسانها هم این کار را کامل و بدون نقص انجام نمیدهند. نقطه عطف به این معنی است که میزان خطا و یا میزانی که رایانه کلمات را اشتباهی میشنود همان مقدار خطایی است که شما از فردی که همان مکالمه را میشنود انتظار دارید.
Zweig اجرا و استفاده منظم از آخرین فناوری شبکههای عصبی را به تمام جنبههای سیستم نسبت داد. تلاش پژوهشگران بیش از همه روی استفاده از مدلهای عصبی زبان بود که در آن کلمات به عنوان بردار پیوسته در فضا نشان داده میشود و کلماتی مانند «fast» و «quick» به هم نزدیک هستند. Zweig گفت: «این اجازه میدهد تا مدلها، تعمیم بسیار خوبی روی همه کلمات داشته باشند»
رؤیایی که محقق شد
شبکههای عصبی عمیق نیاز به مقادیر زیادی از دادهها (به نام مجموعه آموزش) برای آموزش سیستمهای رایانهای و تشخیص الگوهای ورودی مانند تصاویر یا صداها دارند.
این گروه برای رسیدن به نقطه عطف برابری با انسان از جعبه ابزار شناختی مایکروسافت که یک سامانه خانگی برای یادگیری عمیق است، استفاده کرد. این جعبه ابزار از طریق مجوز متن باز در GitHub در دسترس قرار دارد.
هوانگ گفت توانایی جعبه ابزار شناختی مایکروسافت در پردازش سریع الگوریتمهای یادگیری عمیق از یک طرف و چندین رایانه که در حال اجرای یک تراشه تخصصی به نام واحد پردازش گرافیکی هستند از طرف دیگر سرعت را بسیار بهبود دادهاند تا پژوهشگران قادر به انجام تحقیقات خود و در نهایت رسیدن به برابری با انسان باشند.
هوانگ که بیش از سه دهه در زمینه بازشناسی گفتار کار کرده است، میگوید: «این رؤیای من بود که به حقیقت پیوست»
اخبار همان هفته اعلام کرد که گروه دیگری از پژوهشگران مایکروسافت، که روی بینایی رایانه متمرکز بودند به نقطه عطف دیگری رسیدهاند. این گروه در چالش تقسیم بندی تصویرCOCO، که چالشی برای انتخاب بهترین فناوری است که میتواند مکان اشیا در تصویر را به خوبی مشخص کند، موفق به کسب مقام اول شد.
Baining Guo، دستیار مدیر عامل مایکروسافت در بخش پژوهش آسیا، گفت: تقسیمبندی تصویر بسیار دشوار است چرا که فناوری باید دقیقا مرزی که شی در آن قرار دارد را روی تصویر مشخص کند.
نتایج این گروه ۱۱ درصد بهتر از برنده مقام دوم بود و بهبود قابل توجهی نسبت به برنده سال گذشته داشت. در واقع این فناوری براساس سیستم شبکه عصبی بسیار عمیق که برنده جایزه سال گذشته است و کارشناسان بینایی رایانه مایکروسافت طراحی کردند ساخته شده است.
Guo میگوید: «ما به رهبر بودن در زمینه تشخیص تصویر ادامه میدهیم».
از تشخیص تا درک واقعی
با وجود پیشرفتهای بزرگ سالهای اخیر در هر دو زمینه بینایی و تشخیص گفتار، محققان هشدار میدهند که هنوز کارهای زیادی برای انجام دادن وجود دارد.
Zweig میگوید: پژوهشگران در حال کار بر روی روشی هستند تا مطمئن شوند که تشخیص گفتار در زندگی واقعی هم به خوبی کار کند. که شامل مکانهایی میشود که سر و صدای زیادی در پس زمینه وجود دارد از جمله در یک جشن و یا در حال رانندگی در بزرگراه. آنها همچنین به دنبال بهترین روشی هستند تا زمانی که چند نفر در حال صحبت کردن هستند، سخنرانان را تشخیص دهد و مطمئن شوند که این فناوری با طیف گستردهای از صداها، صرف نظر از سن و لهجه به خوبی کار میکند.
در دراز مدت پژوهشگران به روشهایی رو میآورند که به رایانه میآموزند نه تنها سیگنالهای صوتی که از دهان مردم بیرون میآید را رونویسی کنند بلکه به جای درک کلمات آنها را بازگو کنند. که این تمایل، فناوری توانایی پاسخ به سؤالات و یا اقدام بر اساس آنچه که گفتهاند را به نمایش میگذارد.
Zweig گفت: «هدف بعدی این است که از شناخت به سمت درک حرکت کنیم»
Shum اشاره کرد: ما داریم از جهانی که در آن مردم باید رایانهها را درک کنند دور میشویم و به سمت جهانی میرویم که در آن رایانه باید ما را درک کند. با این حال او هشدار میدهد که هوش مصنوعی واقعی هنوز در افقهای دوری قرار دارد.
Shum میگوید: «مسیری بسیار طولانی پیشرو است تا رایانهها بتوانند به معنای واقعی آن چیزی که گفته یا نشان داده شده را درک کنند»
منبع: microsoft