نرم افزار برگردان از انگلیسی به پهلوی

10 اردیبهشت 1399

فهرست:

سامانه‌ای که به پالایش پارسی کمک می‌کند

ایوان مدائن

به کوشش سرور گرانمایه «محمد احسانی» کار آماده‌سازی نرم‌افزاری برای برگردان نوشته‌ها و واژه‌های انگلیسی به پهلوی در دست انجام است. این نرم‌افزار می‌تواند کمک شایانی به پالایش زبان‌های ایرانی از وام واژ‌ه‌های بیگانه و ساخت واژه‌های به‌روز به ویژه در پهنه دانشگاهی و فن‌آوری کند.

این نرم‌افزار اکنون تنها به یاری Python در رایانه‌ها راه اندازی می‌شود و شاید نتوان آن را در گوشی‌ها اجرا کرد. اکنون بیشتر تلاش می‌شود تا این نرم‌افزار به شیوه زیرساختی آماده شود.

به هر روی آماده شدن درست و رسای زیر ساخت‌های این نرم‌افزار هنوز با چالش‌هایی روبرو است که سازندگان این نرم‌افزار نیاز به همیاری هم‌میهنان دارند. این چالش‌ها تنها در زمینه دانش رایانه‌ای نیست ونکه دامنه واژه‌ها هم نیاز به گسترش دارند همچنین به کاربردن درست زبان پهلوی باید بررسی شود. شاید سرانجام همانند Google Translate که امروز یکی از بهترین ابزارهای ترگمان است، نادرستی‌هایی هم داشته باشد ولی گام بزرگی در شناخت زبان‌های باستانی و بهره‌گیری از گنجایش‌های آنها در پارسی امروزی است.

در زیر نوشته‌ای از سرور گرانمایه «محمد احسانی» پدیدآورنده این نرم افزار می‌آید که خود ایشان بیشتر روشنگری کرده‌اند.

نویسنده: محمد احسانی

من دانش آموخته رشته‌های هندازگری[=مهندسی] برق (EE) و دانش رایانه (CS) در آمریکا هستم و چند سالی در زمینه پردازش زبان‌های گفتاری (Natural Language Processing) با رایانه در دانشگاه کار کردم. در دنباله پژوهش‌های پیشین، دلبستگی فراوانی به زنده کردن زبان پهلوی و در پایان، پالایش همه زبان‌های ایرانی نو مانند فارسی، کردی، بلوچی و … از وام واژه‌های بیگانه پیدا کرده‌ام.

یکی از انگیزه‌های بنیادین من برای انجام این کار، دیدن نوشتارهایی در زمینه‌های هندازگری و دانش، به زبان لاتین در Wikipedia بود. برای نمونه نگاه کنید به این نوشتار:‌ Transistrum – Vicipaedia

واژگان transistor, emitter, collector, base همه در فرهنگ واژگان electronic به زبان انگلیسی هستند. transistor ها در سده ۲۰ ام در آمریکا ساخته شده‌اند، بنابراین همه این واژه‌ها ۱۰۰ سال نیست که به فرهنگ واژگان electronic در انگلیسی راه یافته‌اند، ولی همانگونه که در این نوشتار می‌بینیم، برای تک تک این واژگان به زبان لاتین واژه ساخته شده است:

transistrum -> transistor

basem-> base

emittrum -> emitter

collectrum -> collector

هرچند بسیاری از واژگان انگلیسی از لاتین گرفته شده‌اند و بنابراین، این کار نباید چندان کار سختی بوده باشد، ولی اگر به واژگانی که امروزه در ایران به کار می‌بریم نگاهی بیندازیم، در می‌یابیم که تلاش‌هایی که در این زمینه در ایران انجام شده و به سرانجامی نرسیده است. برای نمونه در نسک‌ها و دانشگاه‌های ایران، امروزه این واژگان را ترانزیستور، بیس، امیتر، و کولکتور مینویسند و می‌خوانند. کمتر از ۱۰ سال پیش من در آمریکا‌ دانشجو بودم و می دیدم که دانشجویانی که در رشته های هندازگری[=مهندسی] آموزش می‌دیدند، به آموزگاه لاتین می‌رفتند (می‌توانستند بین چند زبان یکی را برگزینند، که درآن میان، یکی از زبان‌ها لاتین بود). آنگاه از خودم پرسیدم براستی چه شماری از دانشجویان ایرانی می‌دانند که زبانی هم به نام زبان پهلوی هست؟

بنابراین، در سده ۲۱، ما نمی‌توانیم تنها به چند نسک بر جای مانده به زبان پهلوی و اوستایی (که بسیاری، همان‌ها را هم نخوانده اند) بسنده کنیم.

برای زنده کردن زبان پهلوی، ترگمان نوشته‌های انگلیسی (به ویژه در زمینه‌های تشنیک شناسی، دانش، هندازگری، و پزشکی) به زبان پهلوی با بهره گرفتن از نرم افزارهای رایانه‌ای، می‌تواند بسیار سودمند باشد. برای نمونه، بابه کار بردن نرم افزاری که نشانی آنرا در پایان می‌آید، توانستم دفترهای یکم و دوم از نسک مرداش شهرنشینی، نوشته Will Durant را (میانگین در ۱۴تسوک برای هر دفتر) از انگلیسی به پهلوی برگردان کنم. هرچند این ترگمان به ویرایش نیاز دارد، ولی به کار بردن نرم افزار، همچنان کمک بزرگی خواهد بود.

چالش‌های پیش روی

برای پیشرفت فرهنگ واژگان این نرم افزار و دگرگونی آن به فرهنگ واژگان ایرانی نو، از همه ایرانیانی که دلبسته پاسداری از زبانهای ایرانی هستند، درخواست کمک دارم.

برای نمونه، نیاز به افزودن واژگانی که در فرهنگ کنونی پهلوی نیستند، همچون واژه transistor در فرهنگ واژگان electronic. کاستی‌های دیگری هم در این برنامه هستند، مانند واژگانی که بیش از یک چم دارند، همانند واژه pound که هم در چم یکای اندازه گیری سنگین است، و هم در چم کوفتن، ولی در این برنامه من تنها یک چم را به کار برده ام، چون درست کردن فرهنگ واژگانی که همه چم ها را در بر گیرد زمان فراوانی می‌برد و من یک تنه نمی‌توانستم آن را انجام دهم.

بنابراین برای بهتر شدن کار نیاز به بیشتر شدن دامنه واژگان است. می‌توانیم با رایانامه هم اندیشی کنیم که نشانی رایانامه در پایان می‌آید.

توانمندی‌ها برای همیاری

یاران گرامی که می‌خواهند در این برنامه همکاری کنند، بهتر است با زبان انگلیسی آشنا باشند.

دوم، فرهنگ واژگان این برنامه به کمک برنامه‌های رایانه‌ای و پردازش (روش‌هایی مانند parsing, scraping, tokenizing) پایگاه‌هایی مانند «فرهنگ واژگان پهلوی (parsig.org/dictionary.html)» ساخته شده است، ولی از آنجا که این برنامه‌ها در هنگام پردازش، می‌توانند لغزش‌های پیش بینی نشده (bug) داشته باشند، بنابراین، فرهنگ واژگانی که از این راه ساخته می شود، باز نیازمند ویرایش است. این ویرایش به سادگی می‌تواند از راه کنار هم گذاشتن فرهنگ واژگان این برنامه، و دیگر فرهنگ واژگان پهلوی مانند «فرهنگ انگلیسی-پهلوی (parsig.org/dictionary.html)»، «فرهنگ فارسی-پهلوی استاد فره وشی»، یا «فرهنگ پهلوی-انگلیسی MacKenzie » انجام شود و بنابراین نیازی به دانستن پهلوی نیست.

سوم، دیگر واژگان ایرانی مانند فارسی، کردی، بلوچی، آلانی، … که از وام واژه‌های بیگانه پالایش شده‌اند، به آسانی می‌توانند به این فرهنگ افزوده شوند.

پس می‌توان با کنار هم گذاشتن این بن‌مایه‌ها (منابع) و پژوهش بر روی آنها همیاری شایانی به پیشرفت این نرم افزار کرد.

شیوه همیاری

یاران گرامی برای افزایش دامنه واژه ها باید پرونده‌های unigrams.xlsx و verbs.xlsx و unigrams.xlsx و phrases.xlsx و thesaurus.xlsx را به نشانی https://github.com/judahjohnson/parsig با excel ویرایش کنند.