فیسبوک در حال کار بر روی فناوریهایی است که میتواند مواردی که در تصاویر وجود دارد را به صورت شفاهی توصیف کند. این فناوری ویژه کمک به افراد مبتلا به اختلال بینایی است. اما ممکن است بتواند مسائل دیگری را نیز حل کند، همچون استفاده از هوش مصنوعی برای تعیین محتوای مناسب برای افراد و تبلیغ کنندگان. یکی از مهندسین فیسبوک به نام Matt King که نابیناست هدایت این پروژه را برعهده دارد. با مجله فناوریهای توانافزا و پوشیدنی همراه باشید.
یک گروه از فیسبوک به رهبری Matt King، یک مهندس نابینا، ممکن است کلید یکی از بزرگترین مشکلات اینترنت، تشخیص موارد موجود در تصاویر و ویدئوها را داشته باشد.
Matt King، مهندس نابینای فیسبوک
Matt King، مهندس فیسبوک، میگوید: «بیش از ۲ میلیارد تصویر هر روز در فیسبوک به اشتراک گذاشته میشود.» گروه King راهکارهایی را برای افراد مبتلا به اختلال بینایی ایجاد میکند، اما این فناوری در نهایت میتواند برای شناسایی تصاویر و فیلمهایی که شرایط استفاده در فیسبوک را نقض میکنند، استفاده شود.
King با یک بیماری چشم به نام رتینیت پیگمنتوزا (retinitis pigmentosa) متولد شد. King به عنوان یک کودک میتوانست در طول روز خوب ببیند، اما در شب چیزی را نمیدید. به زودی و با پیشرفت بیماری تنها قادر به خواندن با یک نور روشن و سپس با یک سامانه بزرگنمایی بود. او از سامانه بزرگنمایی تلویزیون مدار بسته استفاده کرد تا تحصیلات خود را به پایان برساند.
تا اینکه در سال ۱۹۸۹ که به عنوان مهندس برق در IBM کار میکرد، تمام بینایی خود را از دست داد. King به صورت داوطلبانه در پروژههای دسترسی IBM مشغول به کار میشد. او بر روی یک خواننده صفحه نمایش برای کمک به افراد مبتلا به اختلال دید کار میکرد. این خواننده آنچه را روی صفحه نمایش بود از طریق نشانههای صوتی یا دستگاه بریل نشان میداد. در نهایت IBM نخستین خواننده صفحه نمایش را برای یک رابط گرافیکی که با سیستم عامل OS/2 کار میکرد، توسعه داد.
یکی از پژوهشگران اصلی IBM متوجه شد که King در مورد این پروژه بسیار مشتاق است و در سال ۱۹۹۸ از او خواست که به صورت تمام وقت به گروه دسترسی ملحق شود. او در نهایت چشم فیسبوک را گرفت و از سال ۲۰۱۵ به استخدام این شرکت درآمد.
King قصد داشت جهانی سازگار با خود بسازد. او در رقابتهای دوچرخه سواری در بازیهای پارالمپیک آتلانتا، سیدنی و آتن شرکت کرد و پیانو مینوازد. پس از استخدام King در فیسبوک، همسر و دو فرزندش خواستند در شهر Bend در ایالت اورگان (Oregon) باقی بمانند. پس King برای رسیدن به شرکت فیسبوک در شهر Menlo Park، با دوستی که مجوز خلبانی دارد و در شرکت گوگل کار میکند، همراه میشود.
Automated alt-text
کار King در IBM ایجاد استانداردهای Accessible Rich Internet Applications به عنوان راهکاری برای دسترسی افراد ناتوان به مفاهیم و برنامههای کاربردی وب، را متحول کرد. King آن را لوله کشی برای دسترسی به وب نامیده است. در حال حاضر او روی ویژگیهایی برای کمک به افراد توانیاب در استفاده از فیسبوک کار میکند. همچون افزودن زیرنویس به ویدیوها یا روشهایی برای رفتن به سایت فیسبوک با استفاده از علائم صوتی. King میگوید: «هر فرد دارای ناتوانی میتواند از مزایای فیسبوک بهرهمند شود. آنها میتوانند ارتباطات مفیدی ایجاد کنند و ناتوانی موجب محدودیت آنها نمیشود».
یکی از پروژههای اصلی King که آنچه در تصاویر فیسبوک است را به صورت صوتی توصیف میکند، automated alt-text نامیده میشود. هنگامی که پروژه automated alt-text در ماه آوریل سال ۲۰۱۶ راهاندازی شد، تنها برای پنج زبان در برنامه iOS قابل دسترس بود و تنها قادر به توصیف ۱۰۰ مفهوم اساسی همچون اینکه آیا چیزی در داخل یا خارج از منزل است، چه چیزهایی در تصویر وجود دارد و برخی از صفتهای اصلی مانند لبخند زدن بود. امروزه automated alt-text برای بیش از ۲۹ زبان در فیسبوک، iOS و Android موجود است. همچنین دارای چند صد مفهوم از جمله بیش از ده اقدام پیچیده همچون نشستن، ایستاده، راه رفتن، نواختن آلات موسیقی و یا رقص است.
استفاده از هوش مصنوعی برای دیدن
اگرچه automatic alt-text برای کاربران نابینا و کم بینا پیکربندی شده است، حل مسئله شناسایی تصویر با هوش مصنوعی میتواند برای همه مفید باشد. در ماه دسامبر ۲۰۱۷، فیسبوک به روز رسانی automatic alt-text را انجام داد که از تشخیص چهره برای کمک به افراد مبتلا به اختلال بینایی در پیدا کردن افرادی که در عکس هستند استفاده میکرد. این فناوری همچنین میتواند به همه کاربران کمک کند تصویرهایی از خودشان را که برچسبگذاری نشدهاند را پیدا کنند و کلاهبردارانی را که بدون اجازه از عکس شخصی به عنوان تصویر نمایه خود استفاده میکنند، شناسایی شوند.
این فناوری میتواند شناسایی کند آیا محتوای تصویر برای همه کاربران امن یا اینکه برای تبلیغات مناسب است یا خیر. محتوای مجاور و یا تصاویر و ویدیوهایی که در کنار تبلیغ قرار میگیرند پس از آنکه گزارش شد تبلیغات در کنار محتوای نامناسب در YouTube نمایش داده شده است، به یک مسئله بزرگ برای تبلیغ کنندگان تبدیل شد.
David Hahn، مدیر اجرایی Integral Ad Science (IAS) گفت: مسئله بوجود آمده ناشی از آن است که برنامههای کامپیوتری نمیتوانند مفاهیم را درک کنند. برای یک نرمافزار دشوار است بگوید یک تصویر از یک صلیب شکسته آلمان نازی در یک صفحه ویکی پدیا، بخشی از یک داستان در مورد اصول نازی است یا یک پرچم که در اعتراضات حرکت میکند. هنگامی که تبلیغ کنندگان و نیازهای آنها درگیر هستند، موضوع پیچیدهتر هم میشود: آنها میخواهند علیه فیلمهایی که حاوی خشونت هستند تبلیغ کنند، اما نه در کنار خشونت واقعی در اثر اعتراض.
Hahn گفت که بیشتر روشهای تشخیص تصویر بر مبنای توضیحاتی به نام فرا داده (metadata) است که به تصویر ضمیمه شده است. ویدئو معمولاً با گرفتن یک نمونه تصادفی از تصاویر ساکن و تجزیه و تحلیل آن تعیین میکند آیا این ویدئو به طور کلی خوب است یا خیر. Hahn عقیده دارد: «درجات مختلفی از دقت و پیچیدگی وجود دارد. همچنین رفتارها و طرز عملهای بسیار مختلفی قابل اعمال روی تصاویر و یا متنها است. و هیچ منبع یا یک دیدگاه به عنوان مرجع وجود ندارد».
بیشتر بخوانیم:
شش فناوری شگفت انگیز نابینایان و افراد با مشکلات بینایی
چگونه هوش مصنوعی ، صنعت بانکداری را دگرگون خواهد کرد؟
دستکشی که زبان اشاره را به زبان انگلیسی ترجمه میکند
منبع: cnbc
استفاده و بازنشر مطالب تنها با ذکر لینک منبع و نام (مجله فناوریهای توانافزا و پوشیدنی) مجاز است.