ترجمه ماشینی هنوز راهی دراز در پیش دارد

ترجمه ماشینیترجمه ماشینی هنوز راهی دراز در پیش دارد

امیر شهاب شهابی ( دانشگاه آزاد اسلامی) و دکتر عبدالحسین صراف زاده (استاد یار دانشگاه تربیت معلم )

مقدمه

ترجمه خودکار متون، جزو اولین کاربردهای غیر محاسبه ای کامپیوتر است. ایده ترجمه ماشینی اولین بار در بحثی بین وارن ویور و آندره بوث شکل گرفت ( بوث، ۱۹۵۳ ). مدل آنان بر اساس جداولی طراحی شده بود که در آنها برای رمز گشایی، از تواتر کلمات و حروف استفاده می شد.

با پیدایش تکنیک هایی چون جست و جوی دودوئی و روش تقلیل مسأله در الگوریتم های برنامه سازی و ایده ویرایش ثانویه در ترجمه، اعتقاد به عملی بودن ترجمه ماشینی قوت گرفت. در پایان دهه ۵۰ و اوایل ۶۰، COMIT به عنوان اولین زبان همه منظوره پردازش نماد مطرح شد و برنامه های کمکی واژه پرداز به مرحله پیاده سازی رسید. از سوی دیگر در زمینه زبان شناسی، نسبت به ساخت جملات زبان، دید الگوریتمیکی تحت عنوان دستور زبان گشتاری مطرح گردید ( چامسکی، ۱۹۷۵ )

نتیجه پروژه های دهه ۶۰ که بیشتر از آنها برای مقاصد سیاسی استفاده می شد، پیدایش دو شاخه اصلی در روش های ترجمه ماشینی بود. یکی از این روش ها استفاده از فرم های اصلاح شده دستور زبان گشتاری و دیگری استفاده از اطلاعات آماری در مورد نقش کلمات در جمله و ترجمه آنها بود. در پایان دهه ۷۰، اعتقاد عمومی بر آن بود که ترجمه ماشینی باید پیچیده تر از جابه جایی و جایگذاری کلمات زبان مبدا برای رسیدن به زبان مقصد باشد و ماشین باید به نوعی یک فهم از معنای هر دو نوشتار پیدا کند. این اعتقاد راه را برای استفاده از تکنیک های جدید هوش مصنوعی و به خصوص پردازش زبان طبیعی در ترجمه ماشینی هموار کرد.

در این مقاله با مرور بر ادبیات تحقیق، ابتدا به پژوهش هایی که در زمینه درک متن فارسی و چگونگی واکافت واژه ای، ساختواژی، نحوی ومعنایی صورت گرفته، اشاره شده است و سپس اجزا و ارکان یک سامانه مترجم فارسی بیان و مهمترین رکن آن یعنی رفع ابهام معنایی از کلمات جمله های فارسی، مطرح گردیده است. در ضمن، روش های مختلف حل این مشکل به اختصار بررسی و در پایان به موانع پرداخته شده است. از آنجا که در زمینه ترجمه ماشینی زبان فارسی کمتر مطالعه شده است، این تحقیق سعی در تعمیم مطالعات به زبان فارسی دارد.

پردازش زبان فارسی

در سال ۱۳۷۲، در آزمایشگاه پردازش زبان طبیعی داشنگاه صنعتی شریف، مهرنوش شمس فرد ( ۱۳۷۳ ) سامانه ای به نام دنا طراحی و پیاده نمود. در این سامانه با به کارگیری نظریه وابستگی مفهومی شنک ( ۱۹۷۵ )، جمله های فارسی به شبکه ای از مفهوم ها و روابط میان آنها تبدیل می شوند. گام های گوناگون پردازش جملات عبارت اند از واکافت واژه ای، واکافت ساختواژی، واکافت نحوی، واکافت معنایی و استنتاج.

پس از آن، سه پروژه دیگر با تمرکز بر بخش های گوناگون سامانه دنا ۱ تعریف و اجرا شدند. هر یک از این پروژه ها سعی در گسترش یکی از بخش های این سامانه داشتند. یکی از آنها پروژه ای است که روی پردازش نحوی جمله های نسبتا پیچیده زبان فارسی از جمله گروه های اسمی و جمله های مرکب متمرکز بوده ( مهدیه، ۱۳۷۶ ). پروژه دیگر به طراحی و پیاده سازی بخش واژگان و نیز ارکان ساختواژی پرداخته ( رضا نیا، ۱۳۷۶ ) و سرانجام سومین پروژه، بخش استنتاج گر را با عمق بیشتری مورد توجه قرار داده است ( امامی، ۱۳۷۶ ).

برای درک جمله های زبان فارسی، پس از برداشتن گام های گوناگون در زمینه پردازش ساختواژی و نحوی و پیش از به کارگیری شیوه های استنتاج باید چارچوب مناسبی برای بازنمایی معنای جمله ها در نظر گرفته شود تا ضمن پردازش معنایی، جمله ها به این زبان بازنمایی تبدیل شوند. با توجه به اهمیت پردازش معنایی در یک سامانه درک متن و ضرورت کار بیشتر در این زمینه، پروژه ای برای بررسی شیوه های بازنمایی معنا، و انتخاب یک شیوه مناسب برای سامانه دنا ۲ تعریف شد که در طی اجرای پروژه با بررسی برخی شیوه های بازنمایی معنا، روش گراف های مفهومی به دلیل تمرکز تعداد زیادی از سامانه های زبان طبیعی بر آن، به عنوان شیوه مناسب تر انتخاب شد ( فضلی، ۱۳۷۷ ).

در تحقیق دیگری ( شهابی، ۱۳۷۶ )، ابتدا،‌جمله های فارسی در محدوده معنایی خاص ( درخواست اشتغال به کار افراد برای یک سازمان ) توسط سیستم طراحی شده اخذ می شد. در گام اول، پردازش روی شناخت واژه های آن و یا به عبارت دیگر واکافت واژه ای صورت می گرفت که هر نشانه از جمله با حروف آن خوانده می شد و پس از اتمام کلمه، تشخیص داده می شد که چه کلمه ای است و آیا جزو کلمات با معنی زبان است یا خیر؟ سپس، گام دوم یعنی واکافت ساختواژی شروع می شد. به این معنا که آیا کلمه های مرکب از ترکیب صحیحی تشکیل شده اند یا خیر؟ پس از آن، گام سوم یعنی واکافت نحوی صورت می گرفت. یعنی آیا کلمه های تشکیل دهنده جمله دستور زبان فارسی را رعایت کرده اند و آیا جمله مزبور متعلق به زبان می باشد یا خیر؟ این کار را سیستم به کمک دستور زبانی که برای جمله های فارسی در آن تعبیه شده است انجام می دهد. این دستور زبان کلیه جمله های فارسی را شامل می شود و در واقع پایانه های آن به کلمه فارسی ختم می شود و در واقع پایانه های آن به کلمه های فارسی ختم می شود ( باطنی، ۱۳۷۴ )، پس از اینکه جمله اصلی تشخیص داده شد، شاید ژرف ساخت نیاز به به تبدیل داشته باشد؛ مثلا برای به دست آوردن جمله های سوالی یا مجهول و غیره احتیاج به نوعی گشتار است که ژرف سخت به رو ساخت تبدیل نماید ( مشکوه الدینی، ۱۳۷۴ ) که سیستم با وجود گشتارهای موجود روی زبان با تبدیل ژرف ساخت به رو ساخت به جمله مزبور می رسد و واکافت نحوی پایان می یابد. گام بعدی، واکافت معنایی یا استنباط معنا از جمله مذکور است. در این مرحله از یک شبکه معنایی به عنوان بازنمایی دانش موجود درمعنای جمله استفاده شده است.

در یک تحقیق دیگر ( شریفی، ۱۳۷۶ )، درک معنای جمله ها در ترجمه ماشینی به شکل دیگری صورت گرفته است و از هیچ یک از روش های فوق برای رسیدن به معنای جمله و نگهداری آن در یک پایگاه دانش استفاده نشده است. در این روش سعی شده است روشی جهت ماشینی کردن عمل ترجمه از یک زبان محاوره ای به زبان محاوره ای دیگر ارائه شود. برای رسیدن به این مقصود با در توجه به پیدایش شاخه های جدید هوش مصنوعی در زمینه شبیه سازی رفتار انسان و یادگیری ماشین، چگونگی پیاده سازی مترجم در قالب یک سیستم یادگیرنده ارائه شده است. این مترجم با استفاده از تجربیات قبلی خود در زمینه ترجمه تک تک کلمات و ترتیب قرار گرفتن آنها در جمله،‌ترجمه جملات با ساختارها و کلمات جدید را حدس می زند و به صورت پویا به تکمیل دانش خود در این زمینه می پردازد. از آنجا که در این روش ترجمه، برای طراحی الگوریتم های ارائه شده جهت ایجاد پایگاه دانش و استنتاج دانش از آن از هیچ گونه اطلاعات پیش فرضی در زمینه چگونگی ساختار جملات زبان های مبدا و مقصد و نقش کلمات در جمله استفاده نشده است، مترجم حاضر مستقل از زبان های مبدا و مقصد، توانایی انجام عمل ترجمه از هر زبان به زبان دیگر را دارد.

ترجمه ماشینی

برای اینکه بتوان جمله ای را از یک زبان ترجمه و به زبان دیگری تبدیل نمود، ابتدا به یک روال تشخیص واژه ها یا واکافت واژه ای و واکافت ساختواژی نیاز می باشد، به طوری که کلمات ساده و مرکب آن زبان از ورودی تشخیص داده شود. سپس باید ترکیب کلمات از نظر نحوی صحیح باشد و جمله متعلق به آن زبان را ایجاد نماید. حال برای اینکه این جمله به زبان دیگری برگردان شود، باید نقش و معنای هر کلمه مشخص و با توجه به دستور زبان مقصد و ترجمه کلمه با توجه به نقش آن، جمله زبان مقصد تولید شود. بنابراین دیده می شود که مهمترین بخش، مشخص کردن نقش و معنای کلمات می باشد نقش کلمات با توجه به محل قرار گرفتن آن در جمله مشخص می گردد، اما مسئله مهم معنی کلمات می باشد؛ چرا که تعدادی از کلمات دارای چند معنی می باشد که این ابهام باید به روش مناسبی رفع گردد ( مانینگ و شوتس، ۲۰۰۰ ). در ترجمه ماشینی ابهام هم در معنای کلمات زبان مبدا وجود دارد ( از نظر درک معنی آن ) و هم در زبان مقصد و همین باعث می گردد روند ترجمه دچار مشکل شود. در ادامه، بیشتر به روش های حل این مشکل و موانعی که در زبان فارسی وجود دارد، پرداخته می شود.

 رفع ابهام معنایی کلمات

یکی از اولین مشکلاتی که هر سیستم پردازش زبان طبیعی با آن درگیر است، مسئله ابهام معنایی و ساختاری کلمات است. بخش عمده ای از این ابهام به کمک روالی به نام نشانه گذار بخش کننده جملات که برای تعیین نقش کلمات در جمله به کار می رود، مرتفع می گردد( دلماس و زاورل، دمتریو و اتول، ۲۰۰۰؛ ویلکس، ۱۹۹۷ ). روال مذکور با تعیین نقش کلمه، ابهام ساختاری آن را مرتفع و در پیدا کردن معنای صحیح کلمات کمک شایانی می نماید. البته ابهام معنایی کلمات خیلی پیچیده تر از ابهام ساختاری آن است و برای رفع آن به روش های پیچیده تر نیاز است. ولی روش نشانه گذار بخش کننده جملات در پیدا کردن معنای دقیق کمک می کند و مراحل اولیه آن را انجام می دهد. در واقع، رفع ابهام از معنای یک کلمه بر می گردد به اینکه آن کلمه در چه جمله ای به کار رفته و با چه کلماتی همنشین گردیده است؛ چرا که یک کلمه در یک جمله یک معنی می دهد، در حالی که همان کلمه در جمله دیگر معنای دیگری به خود می گیرد.

رفع ابهام از معنای کلمات جملات یک زبان، از سه راه کلی می تواند انجام پذیرد که هر راه خود روش های متعددی دارد: اول روش ابهام با مربی یا سرپرست است که مبنای آن مجموعه آموزشی برچسب دار است. روش دوم رفع ابهام بر مبنای منابع لغوی مانند فرهنگ لغت و یا فرهنگ تساروس است ( ویلکس و استیونس، ۱۹۹۷ و ۱۹۹۸ ). و بالاخره روش سوم رفع ابهام بدون مربی یا سرپرست است که در این حالت تنها مجموعه لغات و متون بدون برچسب در دسترس است ( کیت و ویلکس، ۲۰۰۰ ).

الف) روش رفع ابهام با مربی

در این روش یک مجموعه لغات ابهام زدایی شده برای آموزش در دسترس است. این مجموعه، نمونه کلماتی است که هر کدام یک کلمه مبهم W می باشند و هر معنی آنها با یک برچسب معنایی متناسب با متنی که در آن قرار می گیرند تعریف شده اند ( SK ).

این کار باعث می شود که بتوان یک طبقه بندی آماری با سرپرست روی کلمات انجام داد. وظیفه اصلی این روش، ایجاد یک روتین طبقه بندی کننده است که کلمات جدید را بر اساس متن هایی که قبلا تعریف شده اند ( CI ) در طبقه مناسب خود قرار می دهد. رد رفع ابهام باسرپرست روش های مختلفی وجود دارد که از جمله آنها می توان از طبقه بندی بیس را نام برد ( دیو و دلمانس، ۲۰۰۰ ) و نیز نظریه اطلاعات که رفع ابهام بر مبنای آن نظریه صورت می گیرد ( مانینگ و شوتس، ۲۰۰۰ ).

ب)‌روش رفع ابهام بر مبنای فرهنگ لغت

اگر اطلاعاتی در مورد طبقه بندی معنایی یک کلمه وجود نداشته باشد، در این صورت می توان از مشخصات عمومی معنای یک کلمه در فرهنگ لغت استفاده نمود. در این روش، تا کنون از سه نو اطلاعات استفاده شده است. نوع اول روش لسک است که مستقیما از تعریف معنای کلمات در فرهنگ لغت استفاده می شود. نوع دوم که نشان می دهد چگونه از اطلاعات طبقه بندی شده موجود در فرهنگ لغت می توان طبقه بندی معنایی یک کلمه را با توجه به متنی که آن کلمه در آن وجود دارد، به دست آورد. ( یارافسکی، ۱۹۹۲۲۲ ) و سوم اطلاعاتی است که از ترجمه یک کلمه به کمک یک فرهنگ لغت دو زبانه به دست می آید و استفاده از معنای کلمه در زبان مقصد برای رفع ابهام از معنای کلمه.

ج) رفع ابهام بدون مربی

در این روش بدون اینکه اطلاعاتی در زمینه معنای لغات وکلمات به کار رفته در متن موجود باشد،‌ابتدا کلمات از نظر معنایی خوشه بندی و سپس بررسی می شود که هر کلمه جدید به کدام خوشه نزدیک تر است و به آن تعلق دارد و با توجه به اینکه به هر خوشه معنای خاصی اختصاص داده شده است، آن معنی برای آن لغت در نظر گرفته می شود و در ترجمه مورد استفاده قرار می گیرد. در دو روش قبلی، برای رفع ابهام به یک سری اطلاعات اولیه از معنای لغات نیاز بود، اما شرایطی، اگر چه نادر، پیش می آید که هیچ گونه اطلاعاتی از معنای کلمات در دسترس نیست؛ مثلا در مورد اصطلاحات فنی و یا پزشکی که در فرهنگ های لغت عمومی پیدا نمی شود. در این حالات خاص است که روش رفع ابهام بدون سرپرست یا مربی مناسب است و در به دست آوردن معنای صحیح کلمه با توجه به متن کمک زیادی می نماید (‌کیت و ویلکس، ۲۰۰۰ ؛ مانینگ و شوتس، ۲۰۰ ).

موانع ترجمه ماشینی زبان فارسی

همان طور که در بالا توضیح داده شد،‌ مهمترین بخش یک سامانه مترجم ماشینی، تشخیص نقش کلمات در جمله و تشخیص معنای صحیح آنها با توجه به متنی است که آن کلمه در آن قرار گرفته است. برای تشخیص معنای صحیح کلمات از سه روش می توان استفاده نمود: در روش اول برای آموزش سامانه به یک مجموعه کلمات فارسی ابهام زدایی شده نیاز می باشد تا از روی آن بتوان عمل رفع ابهام برای کلمات جدید را در متن های مختلف انجام داد که متأسفانه هنوز این مجموعه به صورت یک فرهنگ فارسی قابل خواندن برای ماشین تهیه و تدوین نگردیده است. یعنی این اطلاعات به صورت دستی وجود دارند، اما نسخه رایانه ای از آنها با یک استاندارد معین برای تعریف هر کلمه و معنی و نقش های مختلف آن وجود ندارد. بدیهی است برای این کار ابتدا باید با یک مرکز زبان شناسی معتبر، استاندارد ذخیره سازی اطلاعات و انواع آن را تدوین نماید و سپس نسخه ای رایانه ای از این اطلاعات جهت استفاده های بعدی تهیه شود.

در روش دوم نیز سامانه مستقیما از یک فرهنگ لغت استفاده می کند، باز هم در مورد زبان فارسی این مشکل وجود دارد که هنوز فرهنگ های لغت فارسی رایانه ای با یک استاندارد مشخص تهیه نشده اند. این در حالی است که در زبان انگلیسی فرهنگ های متعددی مانند net LDOCE, Word یا Roget’s International Thesaurus به صورت MRD یا نسخ قابل خواندن توسط رایانه وجود دارند که سامانه های مختلف مترجم ماشینی از آنها با یکی از روش های رفع ابهام مذکور بهره می جویند.

از روش سوم رفع ابهام نیز همان طور که دیده شد صرفا برای لغات خاص و محدود فنی یا پزشکی استفاده می شود، نه برای کلیه لغات فارسی و چون متأسفانه هنوز استفاده از اصطلاحات فنی فارسی متداول و رایج نشده است، این روش رفع ابهام در زبان فارسی زیاد موفق نخواهد بود. از این رو برای اینکه بتوان از یک مترجم قوی وبدون مشکل فارسی بهره مند شد، ابتدا باید مقدمات بر شمرده را فراهم نمود و این خود تلاش گروهی متشکل از زبان شناسان، مترجمان، ادیبان و متخصان رایانه را می طلبد که سرآغازی خواهد شد برای رسیدن به این هدف ملی.

نتیجه گیری

فراگیری ترجمه ماشینی عبارت اند از: واکافت واژه ای، واکافت ساختواژی، واکافت نحوی، واکافت معنایی، تشخیص نقش کلمات در جمله، تشخیص معنای صحیح کلمات ( با توجه به جمله حاوی و رفع ابهام از کلمات دارای معنی مشابه و یافتن معنی معادل کلمه در زبان مقصد و تبدیل جمله زبان مبدا به جمله زبان مقصد با توجه به دستور زبان مقصد و در صورت نیاز اعمال گشتارهای مناسب برای تبدیل جملات مقصد به شکل روساختی آن ). در این راستا مهمترین بخش یک مترجم که دقت در آن باعث بالا رفتن دقت کل عمل ترجمه می گردد،‌ رفع ابهام معنایی از کلمات جملات زبان مبدا ونیز رفع ابهام از ترجمه آنها به زبان مقصد می باشد. برای رفع ابهام معنایی کلمات سه روش کلی وجود دارد که عبارت اند از: ( الف ) رفع ابهام با مربی، (‌ب ) رفع ابهام بر مبنای فرهنگ لغت، و ( ج ) رفع ابهام بدون مربی.

در روش اول مجموعه ای از لغات ابهام زدایی شده وجود دارد که سامانه با آن لغات آموزش داده می شود و اگر در حین عمل ترجمه با لغت جدیدی برخورد کرد،‌با توجه به اطلاعات آموزش دیده تشخیص می دهد که کلمه مزبور با توجه به متنی که در آن قرار گرفته در چه طبقه ای قرار می گیرد و معنای درست آن کدام است و آن را در ترجمه به کار می برد. در روش دوم اساسا برای هر کلمه از کل فرهنگ لغت استفاده می شود و با توجه به نقش کلمه و دیگر مشخصات آن با کمک فرهنگ لغت معنی صحیح آن متناسب با جمله ای که در آن قرار گرفته است،‌ به دست می آید. بالاخره روش سوم که روش رفع ابهام بدون مربی یا سرپرست است، مخصوص کلماتی است که در فرهنگ های لغت معمولی وجود ندارند (‌اصطلاحات فنی یا پزشکی و … ) و باید از فرهنگ های لغت تخصصی و یا دایره المعارف ها بهره جست.

اما مشکل اصلی بر سر راه رفع ابهام از کلمات فارسی این است که اگر از دو روش اول استفاده شود، به یک نسخه رایانه ای از مجموعه لغات همراه بانقش های مختلفی که می توانند به خود بگیرند و معانی مختلفی که باتوجه به نقش های مختلف و یا همنشینی با کلمات مختلف به خود می گیرند، نیاز می باشد که متأسفانه این نسخه رایانه ای و همچنین استاندارد ذخیره سازی این دسته اطلاعات وجود ندارد که باید با کار گروهی متشکل از زبان شناسان، ادیبان و متخصصان رایانه ایجاد و جهت سیستم های مترجم زبان فارسی صورت بگیرد. استفاده از روش سوم رفع ابهام نیز خاص لغات فنی است که در زبان فارسی هنوز کاملا جا نیفتاده است . بنابراین با توجه به این که دقت در رفع ابهام از معنای کلمات دقت مترجم را بالا می برد،‌ هنوز نمی توان سامانه های مترجم فارسی مناسب را تهیه و از آنها بهره برداری نمود.

منابع

امامی و م . بررسی مسایل درک متن فارسی و پیاده سازی نمونه هایی از آن. پایان نامه کارشناسی ارشد، دانشکده مهندسی کامپیوتر، دانشگاه صنتعتی شریف.،۱۳۷۶٫

Booth, A . D (1953), Machine Translation, Computer and Automation, Vol2, no4,

Chomsky, N., (1975), Reflection on Language, New York: Pantheon Books.

Daelemans, W., Zavrel , J. Berck P., Gillis. ( 1996 ), MBT: A Memory – Based Part – of – speech Tagger Generator, Proceeding at 4th Workshop on Very Large Corpora, Copenhagen.

Demetriou, G., Atwell, E.s., (2000), A domain Independent Semantic Tagger for the study of meaning Associations in English text. IWCS – ۴ Program.

De Pauw, g ., Daelemans, W. ( 2002 ), The Role of Algorithm Bias Vs information Source in Learning Algrithms for

morphosyntactic Disambigution, Proceeding of cnoll-2000 and LLL-2000, Pages 19-24, Lisbon, Porugel.

Kit, C., Wilks, ( 1999 ), Unsupervised Learning of World Boundary Length Gain. Computational Natural Learning.

Manning, C.D. Schutze, H. ( 1999 ), MIT Press, Cambridge, MA.

Scjamlk, R.C. ( 1975 ), Conceptual Information Processing North Holland, Publishing Company, Amsterdam.

Wilks, Y., Stevenson, M. ( 1998 ), Word Sense Disambiguation Using Optimized Combining Weak Knowledge Sources for Sense Disambiguation. Proceeding of the third conference of Recent Advances in Natural Language Processing Conference, PP. 1-7.

Wilks, Y . in N. Ide ( Ed ) ( 1997 ), Senses and Texts, computers & G . humanities, vol. 31, PP. 77-90.

Yarawsky, D . ( 1992 ), Word Sense Disambiguation Using Statistical Models of Roget’s Categories Trained on Large Corpora, COLING 14, 454-460.

برگرفته از: مجله زبانشناسی – ۱۳۸۲

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *