سامانهای که به پالایش پارسی کمک میکند
به کوشش سرور گرانمایه «محمد احسانی» کار آمادهسازی نرمافزاری برای برگردان نوشتهها و واژههای انگلیسی به پهلوی در دست انجام است. این نرمافزار میتواند کمک شایانی به پالایش زبانهای ایرانی از وام واژههای بیگانه و ساخت واژههای بهروز به ویژه در پهنه دانشگاهی و فنآوری کند.
این نرمافزار اکنون تنها به یاری Python در رایانهها راه اندازی میشود و شاید نتوان آن را در گوشیها اجرا کرد. اکنون بیشتر تلاش میشود تا این نرمافزار به شیوه زیرساختی آماده شود.
به هر روی آماده شدن درست و رسای زیر ساختهای این نرمافزار هنوز با چالشهایی روبرو است که سازندگان این نرمافزار نیاز به همیاری هممیهنان دارند. این چالشها تنها در زمینه دانش رایانهای نیست ونکه دامنه واژهها هم نیاز به گسترش دارند همچنین به کاربردن درست زبان پهلوی باید بررسی شود. شاید سرانجام همانند Google Translate که امروز یکی از بهترین ابزارهای ترگمان است، نادرستیهایی هم داشته باشد ولی گام بزرگی در شناخت زبانهای باستانی و بهرهگیری از گنجایشهای آنها در پارسی امروزی است.
در زیر نوشتهای از سرور گرانمایه «محمد احسانی» پدیدآورنده این نرم افزار میآید که خود ایشان بیشتر روشنگری کردهاند.
نویسنده: محمد احسانی
من دانش آموخته رشتههای هندازگری[=مهندسی] برق (EE) و دانش رایانه (CS) در آمریکا هستم و چند سالی در زمینه پردازش زبانهای گفتاری (Natural Language Processing) با رایانه در دانشگاه کار کردم. در دنباله پژوهشهای پیشین، دلبستگی فراوانی به زنده کردن زبان پهلوی و در پایان، پالایش همه زبانهای ایرانی نو مانند فارسی، کردی، بلوچی و … از وام واژههای بیگانه پیدا کردهام.
یکی از انگیزههای بنیادین من برای انجام این کار، دیدن نوشتارهایی در زمینههای هندازگری و دانش، به زبان لاتین در Wikipedia بود. برای نمونه نگاه کنید به این نوشتار: Transistrum – Vicipaedia
واژگان transistor, emitter, collector, base همه در فرهنگ واژگان electronic به زبان انگلیسی هستند. transistor ها در سده ۲۰ ام در آمریکا ساخته شدهاند، بنابراین همه این واژهها ۱۰۰ سال نیست که به فرهنگ واژگان electronic در انگلیسی راه یافتهاند، ولی همانگونه که در این نوشتار میبینیم، برای تک تک این واژگان به زبان لاتین واژه ساخته شده است:
transistrum -> transistor
basem-> base
emittrum -> emitter
collectrum -> collector
هرچند بسیاری از واژگان انگلیسی از لاتین گرفته شدهاند و بنابراین، این کار نباید چندان کار سختی بوده باشد، ولی اگر به واژگانی که امروزه در ایران به کار میبریم نگاهی بیندازیم، در مییابیم که تلاشهایی که در این زمینه در ایران انجام شده و به سرانجامی نرسیده است. برای نمونه در نسکها و دانشگاههای ایران، امروزه این واژگان را ترانزیستور، بیس، امیتر، و کولکتور مینویسند و میخوانند. کمتر از ۱۰ سال پیش من در آمریکا دانشجو بودم و می دیدم که دانشجویانی که در رشته های هندازگری[=مهندسی] آموزش میدیدند، به آموزگاه لاتین میرفتند (میتوانستند بین چند زبان یکی را برگزینند، که درآن میان، یکی از زبانها لاتین بود). آنگاه از خودم پرسیدم براستی چه شماری از دانشجویان ایرانی میدانند که زبانی هم به نام زبان پهلوی هست؟
بنابراین، در سده ۲۱، ما نمیتوانیم تنها به چند نسک بر جای مانده به زبان پهلوی و اوستایی (که بسیاری، همانها را هم نخوانده اند) بسنده کنیم.
برای زنده کردن زبان پهلوی، ترگمان نوشتههای انگلیسی (به ویژه در زمینههای تشنیک شناسی، دانش، هندازگری، و پزشکی) به زبان پهلوی با بهره گرفتن از نرم افزارهای رایانهای، میتواند بسیار سودمند باشد. برای نمونه، بابه کار بردن نرم افزاری که نشانی آنرا در پایان میآید، توانستم دفترهای یکم و دوم از نسک مرداش شهرنشینی، نوشته Will Durant را (میانگین در ۱۴تسوک برای هر دفتر) از انگلیسی به پهلوی برگردان کنم. هرچند این ترگمان به ویرایش نیاز دارد، ولی به کار بردن نرم افزار، همچنان کمک بزرگی خواهد بود.
چالشهای پیش روی
برای پیشرفت فرهنگ واژگان این نرم افزار و دگرگونی آن به فرهنگ واژگان ایرانی نو، از همه ایرانیانی که دلبسته پاسداری از زبانهای ایرانی هستند، درخواست کمک دارم.
برای نمونه، نیاز به افزودن واژگانی که در فرهنگ کنونی پهلوی نیستند، همچون واژه transistor در فرهنگ واژگان electronic. کاستیهای دیگری هم در این برنامه هستند، مانند واژگانی که بیش از یک چم دارند، همانند واژه pound که هم در چم یکای اندازه گیری سنگین است، و هم در چم کوفتن، ولی در این برنامه من تنها یک چم را به کار برده ام، چون درست کردن فرهنگ واژگانی که همه چم ها را در بر گیرد زمان فراوانی میبرد و من یک تنه نمیتوانستم آن را انجام دهم.
بنابراین برای بهتر شدن کار نیاز به بیشتر شدن دامنه واژگان است. میتوانیم با رایانامه هم اندیشی کنیم که نشانی رایانامه در پایان میآید.
توانمندیها برای همیاری
یاران گرامی که میخواهند در این برنامه همکاری کنند، بهتر است با زبان انگلیسی آشنا باشند.
دوم، فرهنگ واژگان این برنامه به کمک برنامههای رایانهای و پردازش (روشهایی مانند parsing, scraping, tokenizing) پایگاههایی مانند «فرهنگ واژگان پهلوی (parsig.org/dictionary.html)» ساخته شده است، ولی از آنجا که این برنامهها در هنگام پردازش، میتوانند لغزشهای پیش بینی نشده (bug) داشته باشند، بنابراین، فرهنگ واژگانی که از این راه ساخته می شود، باز نیازمند ویرایش است. این ویرایش به سادگی میتواند از راه کنار هم گذاشتن فرهنگ واژگان این برنامه، و دیگر فرهنگ واژگان پهلوی مانند «فرهنگ انگلیسی-پهلوی (parsig.org/dictionary.html)»، «فرهنگ فارسی-پهلوی استاد فره وشی»، یا «فرهنگ پهلوی-انگلیسی MacKenzie » انجام شود و بنابراین نیازی به دانستن پهلوی نیست.
سوم، دیگر واژگان ایرانی مانند فارسی، کردی، بلوچی، آلانی، … که از وام واژههای بیگانه پالایش شدهاند، به آسانی میتوانند به این فرهنگ افزوده شوند.
پس میتوان با کنار هم گذاشتن این بنمایهها (منابع) و پژوهش بر روی آنها همیاری شایانی به پیشرفت این نرم افزار کرد.
شیوه همیاری
یاران گرامی برای افزایش دامنه واژه ها باید پروندههای unigrams.xlsx و verbs.xlsx و unigrams.xlsx و phrases.xlsx و thesaurus.xlsx را به نشانی https://github.com/judahjohnson/parsig با excel ویرایش کنند.
نشانی نرم افزار
برای راه اندازی این نرم افزار باید در رایانه خود Python کار بگذارید (نصب کنید) که در بخش Requirements to run the program روشنگری شده است.
پرونده README.md، همه کاستیها را به گستردگی روشن میکند و پیشنهاد میکنیم این پرونده را بخوانید.