اقتصاد۲۴- محمدرضا محتاط گفت: پردازش زبانهای طبیعی زیرشاخهای از هوش مصنوعی است که به توسعه و بهره گیری از مدلهای رایانشی برای پردازش زبان کاربرد دارد. قابلیتهای متن کاوی و پردازش زبان طبیعی یکی از جنبههای بسیار کاربردی و مهم برای ارتقای سطح دادهمحوری و هوشمندی سازمانهای بخش خصوصی و دولتی است. کارکردهای متعددی از قبیل پیاده سازی ابزارهای پیشرفته تحلیل متن، توسعه چت باتهای هوشمند جهت ارتباط با مشتریان، ترجمه ماشینی، تحلیل احساسات نظرات و دغدغه مردم و جامعه، مشابهتیابی متون، جستجوی معنایی در متن، اصلاحگر املایی، تبدیل خودکار صوت به متن، خلاصهسازی متون و... از مهمترین موردکاربردهای این بخش است.
جایگاه کشور ما در توسعه بازار متن کاوی و پردازش زبان طبیعی
رئیس کارگروه متنکاوی و پردازش زبان طبیعی کمیسیون هوش مصنوعی و علوم داده سازمان نظام صنفی رایانهای استان تهران گفت: در سطح زبانهای انگلیسی و عربی با توجه به تعریف و پیاده سازی پروژههای بین المللی و توجه ویژه شرکتهای بزرگ رشد بسیار خوبی داشته است. اما در زبان فارسی به دلیل تفاوتهای ساختار زبانی نیازمند طراحی مدلهای زبانی جامع، تولید پیکرههای زبان فارسی و همکاری بیشتر میان بخش دولتی با بخش خصوصی در پروژههای پردازش زبان طبیعی فارسی هستیم.
مدلهای زبانی چیست؟
محتاط در مورد مدل های زبانی گفت: مدلسازی زبان بخش حیاتی و پایهای در بسیاری از عملیات مرتبط با پردازش زبان طبیعی و هوش مصنوعی ایفا میکند. در توسعه این قبیل مدلها هدف آموزش روابط و قواعد زبان فارسی به ابزارهای مبتنی بر هوش مصنوعی استکه با بهره گیری از آن میتوان به صورت خودکار و سریع اقدام به تحلیل ساختاری و محتوایی متون فارسی نمود. در واقع با توسعه این ابزار میتوان در طیف وسیعی از کارکردهای پردازش زبان طبیعی و متن کاوی از آن بهره برد و دقت ابزارهای هوشمند پردازش زبان طبیعی را در اکثر پروژههای کاربردی بسیار افزایش داد.
مهمترین چالشهای شرکتهای بخش خصوصی در توسعه مدلهای زبانی
رئیس کارگروه متنکاوی و پردازش زبان طبیعی کمیسیون هوش مصنوعی و علوم داده سازمان نظام صنفی رایانهای استان تهران ادامه داد: با توجه به حضور بیش از ۶۰ شرکت فعال در کمیسیون هوش مصنوعی و علوم داده و برگزاری جلسات متعدد با شرکتها در کارگروه متن کاوی و پردازش زبان طبیعی به شناخت خوبی از چالشهای روز شرکتهای بخش خصوصی رسیدهایم. گسترش و قابلیتهای روشهای مبنتی بر شبکه عصبی در شاخه هوش مصنوعی سبب شده است تا دقت مدلهای زبانی و به تبع ابزارهای پردازش زبان طبیعی به صورت محسوسی افزایش پیدا کند. اما چالش اصلی در پیادهسازی این مدلهای هوشمند است. در واقع با توجه به ساختار روشهای مبتنی بر شبکه عصبی که تحت عنوان یادگیری عمیق نیز شناسایی میشوند مشکل اصلی لزوم دسترسی به سرورهای قدرتمند است که تا مدلهای زبانی جامع برای زبان فارسی توسعه یابد. امری که تنها توسط دولت و شرکتهای بسیار بزرگ مقدور خواهد شد. در سطح بین المللی اکثر مدلهای زبانی مرجع با بهره گیری از سرورهای عظیم شرکتهای بین اللملی همانند گوگل، فیس بوک صورت پذیرفته است. همین امر سبب رشد بسیار کارکردهای پردازش متن در زبان انگلیسی گردیده است. اما در زبان فارسی به دلیل عدم توانایی شرکتهای بخش خصوصی در تامین این قبیل سرورهای قدرتمند این توسعه با کندی بسیار پیش میرود. در حال حاضر اکثر شرکتها مجبور به استفاده از ابزارهای پردازش زبان فارسی قدیمی هستند که به صورت محدود برروی دادگان زبان فارسی توسعه داده شده است.
محتاط گفت: در مقابل در کشور ما بهحمدلله متخصصین و کارشناسان بسیار خبرهای در حوزه هوش مصنوعی و پردازش زبان طبیعی حضور دارند؛ لذا ما به هیچ عنوان نه از جنبه دانشی، فنی و حتی دسترسی به دادگان متنی فارسی محدودیتی نداریم، تنها چالش فعلی عدم دسترسی به سرورهای قدرتمند در راستای توسعه این ابزار کاربردی است. شایان ذکر است که توسعه یک مدل زبانی جامع در یک شرکت خصوصی میتواند تا چندین سال طول بکشد این در حالی است که با ورود بخش دولتی و ارائه دسترسی امکان توسعه به چند ماه کاهش پیدا میکند.
رئیس کارگروه متنکاوی و پردازش زبان طبیعی کمیسیون هوش مصنوعی و علوم داده سازمان نظام صنفی رایانهای استان تهران افزود: ما درکارگروه متن کاوی و پردازش زبان طبیعی در تلاش هستیم تا با ایجاد یک همکاری مشترک میان صنعت، دانشگاه و بخش دولتی یک مدل زبانی جامع برای زبان فارسی توسعه و به صورت رایگان در اختیار عموم قرار دهیم؛ لذا در صورتی که دولت و حاکمیت در این خصوص همکاری نمایند امکان توسعه این ابزار جامع و حرکت به سمت روندهای جدید جهانی و توسعه شرکتهای دانش بنیان مبتنی بر هوش مصنوعی میسرتر خواهد شد.