سوندار پیچای (Sundar Pichai) مدیرعامل شرکت گوگل در کنفرانس گوگل آی/او (Google I/O 2017) اعلام کرد موفق شدند در سامانه تشخیص گفتار این شرکت به نرخ خطای ۴٫۹ درصد دست یابند. به عبارت دیگر این سامانه به ازای هر ۲۰ واژه تنها یک واژه غلط دارد. این دستاورد بزرگی برای شرکت گوگل است. با مجله فناوریهای توانافزا و پوشیدنی همراه باشید.
این در حالی است که در سال ۲۰۱۳ گوگل نرخ خطای ۲۳ درصد را برای سامانه تشخیص گفتار خود اعلام کرده بود و دو سال پیش سال ۲۰۱۵ در کنفرانس گوگل آی/او این نرخ را ۸ درصد بیان کرد. گوگل آی/او یک کنفرانس سالیانه است که بر روی توسعه دهندگان متمرکز است و توسط گوگل در سانفرانسیسکوی کالیفرنیا برگزار میگردد.
هوش مصنوعی و به خصوص الگوریتمهای یادگیری عمیق نقش اساسی در این موفقیت ایفا کردهاند. یادگیری عمیق یکی از انواع هوش مصنوعی است که در تشخیص تصویر و گفتار با دقت بالا کاربرد دارد. در این روش با وارد کردن حجم عظیمی از داده به سامانه به آموزش شبکههای عصبی پرداخته میشود. پس از آموزش، با ورود دادههای جدید، سامانه نتیجه را پیشبینی میکند.
سوندار پیچای توضیح میدهد:« ما از دادههای صوتی انواع محصولات خود به عنوان ورودی سامانه تشخیص گفتار استفاده کردیم. بهبود این سامانه به افزایش عملکرد رایانهها در تشخیص گفتار کمک میکند. ما پیشرفتهای قابل توجهی داشتیم. نرخ خطای تشخیص واژه در سامانه به صورت پیوسته در حال کاهش است. حتی در محیطهای نویزی نیز این سامانه عملکرد خوبی دارد. به همین دلیل است زمانیکه با برنامه کاربردی گوگل روی گوشیهای هوشمند یا بلندگوی خانگی گوگل هوم (Google Home) صحبت کنید ما میتوانیم صدای شما را با دقت دریافت کنیم.»
این در حالی است که شرکت مایکروسافت در ماه اکتبر سال ۲۰۱۶ اعلام کرد که سامانه تشخیص گفتار این شرکت دقتی برابر با انسان دارد. مایکروسافت نرخ خطای واژه را ۵٫۹ درصد اعلام کرد. البته مشخص نیست که روش ارزیابی دو شرکت یکسان است یا خیر. در اوایل سال ۲۰۱۷ گوگل بیان کرد از سال ۲۰۱۲ نرخ خطا را بیشتر از ۳۰ درصد کاهش داده است. گوگل بیان میکند استفاده از شبکههای عصبی تاثیر به سزایی داشته است.
او خبر جالبی را در کنفرانس با توسعهدهنگان به اشتراک گذاشت. در نسخه قبلی بلندگوی خانگی گوگل هوم از هشت میکروفون استفاده شده است. هماکنون گوگل با کمک شبکههای عصبی به روش «بیمفورمینگ عصبی (neural beam forming)» دست یافتند. با این روش نوآورانه با تنها دو میکروفون به همان کیفیت و عملکرد نسخه پیشین با هشت میکروفون خواهد رسید.
فناوری شکلدهی گلبرگ آنتن یا بیمفورمینگ در دنیای امروز کاربردهای فراوانی دارد، از این ویژگی در علوم مختلف مانند صوت شناسی استفاده می گردد. این روش یکی از تکنیکهای پردازش سیگنال به منظور ایجاد فیلترینگ فضایی است، ویژگی که از آن جهت ارسال و دریافت سیگنال در حالت بهینه استفاده میگردد. در نهایت میتوان گفت عملکرد سامانه تشخیص گفتار به مرور زمان بهبود خواهد بافت اما هنوز فاصله زیادی تا رسیدن به نرخ خطای صفر درصد وجود دارد.
در زمینه اخبار فناوری و پیشرفتهای محصولات شرکت گوگل بیشتر بخوانید:
>>رابط برنامه نویسی جدید گوگل میتواند اجزای درون فیلم را شناسایی کند
منبع: venturebeat
استفاده و بازنشر مطالب تنها با ذکر لینک منبع و نام (مجله فناوریهای توانافزا و پوشیدنی) مجاز است.