تحلیل پیکره بنیان متون فارسی میانه بر مبنای پایگاه داده پارسیگ

نوع مقاله : علمی-پژوهشی

نویسندگان

1 دانشیار زبان‌های باستانی، پژوهشگاه علوم انسانی و مطالعات فرهنگی(نویسنده مسئول)

2 استادیار زبانشناسی،پژوهشگاه علوم انسانی و مطالعات فرهنگی

3 کارشناس پژوهشی گروه فرهنگ و زبان‌های باستانی، پژوهشکده زبان‌شناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی

10.30465/ls.2021.6590

چکیده

رویکرد نوین در مطالعات زبان‎شناختی یا یک پدیده زبانی بر اصل وجود مجموعه‌ای از داده‌های زبانی گردآوری‌شده نهادینه شده‎است؛ بنابراین به تهیه یک پیکره زبانی نیاز  است که از تولیدات واقعی گویشوران و نه براساس شمّ زبانیِ فردی گردآوری شده‎است. این شیوۀ پژوهشی برای بررسی داده‎های زبانی تاریخی که جزء زبان‌های مرده است و اکنون هیچگونه گویشوری ندارد از اهمیت به‎سزایی برخوردار است. هدف از انجام این پژوهش،‌ تهیه پیکرۀ زبان پهلوی ساسانی (فارسی میانه) و ساماندهی آن در یک پایگاه است. برای هر واژه، شش لایۀ اطلاعاتی، اعم از حرف‏نویسی متن پهلوی، آوانویسی واژه‌ها به‌همراه ترجمۀ فارسی آنها، تعیین مقولۀ دستوری دانه‎ریز واژه‌ها، بن‌واژه‌سازی واژه‌ها و تعیین هزوارش‌بودن آنها، تعریف شده‎است. برای مقولۀ دستوری دانه‎ریز واژه‎ها، مجموعۀ برچسب مقولات دستوری فارسی معاصر تهیه‎شده توسط بی‎جن‎خان و همکاران (2011) و ساختارمندشده توسط قیومی (2014) باتوجه‏به نیازهای زبان پهلوی جرح و تعدیل شده‌است و از مجموعۀ جدید برای برچسب‎گذاری واژه‎های پهلوی استفاده شده‌است. پس ‎از نشانه‌گذاری واژه‎ها و ساماندهی اطلاعات، امکان استخراج اطلاعات آماری وجود دارد که می‎تواند بینش عمیق‎تری از محتوای متن منتقل نماید. ازاین‌رو، اطلاعات آماری از پیکرۀ به‌دست‌آمده استخراج شده و توضیح داده می‌شود تا دورنمای کلی نسبت‌به منابع تشکیل‌دهندۀ این پیکره به‌دست‌آید.

کلیدواژه‌ها


عنوان مقاله [English]

Corpus-based Analysis of Middle Persian Texts based on the Pārsīg Database

نویسندگان [English]

  • farzaneh goshtasb 1
  • Masood Ghayoomi 2
  • nadia hajipour artarani 3
1 Associate Professor of ancient Iranian Languages and Culture at Institute for Humanities and Cultural Studies (The First Author),
2 Assistant Professor of Linguistics at Institute for Humanities and Cultural Studies
3 Resercher of ancient Iranian Languages and Culture at Institute for Humanities and Cultural Studies
چکیده [English]

Recent attitude towards studying a language and a linguistic phenomenon is based upon the existence of a collection of data; therefore it is required to develop a linguistic corpus that is naturally occurred and it is not collected from the one’s intuition. This research methodology is highly important to study linguistic historical data, which is dead and has no speaker.
The current research puts an effort to develop a linguistic corpus of middle Persian and to organize the data in a data-base. To this end, six information levels are determined in the annotation process, including transliteration of the Pahlavi texts, transcription of the words along with their Persian translation, defining fine-grained syntactic category of the words, lemmatizing the words, and identifying whether the word is huzwāreš or not. To define fine-grained syntactic categories, the tag set for contemporary Persian developed by Bijankhan et al (2011) and organized by Ghayoomi (2004) are modified and adapted to the Pahlavi language according to the requirements. The new tag set is used to label Pahlavi words. After annotating words and organizing the information, extracting the statistical information is possible to deepen the insight over the text’s content.

کلیدواژه‌ها [English]

  • the Middle Persian language
  • the Pahlavi texts
  • corpus linguistics
  • database
  • annotation
کتابنامه
-      بهار، مهرداد. 1345. واژه‌نامه بندهش. تهران: بنیاد فرهنگ ایران.
-      بهار، مهرداد. 1351. واژه‌نامه گزیده‌های زادسپرم. تهران: بنیاد فرهنگ ایران.
-      بهار، مهرداد. 1369. بندهش. فرنبغ دادگی. تهران: توس.
-      تفضلی، احمد. 1378. تاریخ ادبیات ایران پیش از اسلام. تهران: سخن.
-      تفضلی، احمد. 1379. مینوی خرد. به کوشش ژاله آموزگار. تهران: توس.
-      راشدمحصل، محمدتقی. 1385 . وزیدگی‌‌های زادسپرم. تهران: پژوهشگاه علوم‌انسانی و مطالعات فرهنگی.
-      راشدمحصل، محمدتقی. 1389 . دینکرد هفتم. تهران: پژوهشگاه علوم‌انسانی و مطالعات فرهنگی.
-      ژینیو، فیلیپ. 1382. ارداویراف نامه (ارداویرازنامه). ترجمه و تحقیق ژاله آموزگار. تهران: معین و انجمن ایرانشناسی فرانسه.
-      صفای اصفهانی، نزهت. 1376. روایت امید اشوَهیشتان. تهران: نشر مرکز.
-      طاووسی، محمود. 1365. واژه‌نامه شایست نشایست. شیراز: دانشگاه شیراز.
-      عریان، سعید. 1371. متون پهلوی (ترجمه، آوانوشت)، تهران: کتابخانه ملی جمهوری اسلامی ایران.
-      فره‌وشی، بهرام. 1386. فرهنگ زبان پهلوی. تهران: انتشارات دانشگاه تهران.
-      قیومی، مسعود. 1397. پیکره زبانی و ضرورت ساختارمندسازی داده. در مجموعه چکیده‌های سخنرانی‌های دهمین همایش بین‌المللی زبان‌شناسی ایران، دانشگاه علامه طباطبایی، ص: 106.
-      مزداپور، کتایون . 1369. شایست نا شایست. تهران:‌ مؤسسه مطالعات و تحقیقات فرهنگی.
-      مزداپور، کتایون . 1378. بررسی دستنویس م.او 29، داستان گرشاسب، تهمورث و جمشید گلشاه و متن‌های دیگر. تهران: آگاه.
-      مزداپور، کتایون و فرزانه گشتاسب و نادیا حاجی‌پور، 1390. «معرفی فرهنگ فارسی میانه»، مقاله‌های نخستین همایش فرهنگ نویسی علامه دهخدا، صص 97- 117.
-      مکنزی، دیوید نیل. 1379. فرهنگ کوچک زبان پهلوی. ترجمه مهشید میرفخرایی. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
-      میرفخرایی، مهشید. 1367. روایت پهلوی. تهران: مؤسسه مطالعات و تحقیقات فرهنگی.
-      میرفخرایی، مهشید. 1393.  بررسی دینکردششم. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
-      میرفخرایی، مهشید. 1397.  دادستان دینی. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی
 
-   Anklesaria, T.D. 1908. Bundahishn. Bombay.
-   Anklesaria, T.D. 1911. Datistan-i-Dinik, Part I. Pursišn I-XL. Bombay.
-   Anklesaria, T.D.  1913. Dânâk-u Mainyô-I Khard. Bombay.
-   Anklesaria.B.T. 1957. Zand-i Vohuman Yasn and two pahlavi fragments with text. Bombay.
-   Bijankhan, M., J. Sheykhzadegan, M. Bahrani, & M. Ghayoomi. 2011. “Lessons from building a Persian written corpus: Peykare”, Language resources and evaluation, 45 (2): 143-164.
-   Boyce, M. 1977. A Word-List of Manichaean Middle Persian and Parthian (Acta Iranica 9a). Tehran-Liege.
-   Durkin-Meisterernst, D. 2004. Dictionary of Manichaean Middle Persian and Parthian. Belgium.
-   Ghayoomi, M. 2012. “Bootstrapping the Development of an HPSG-based Treebank for Persian”, Linguistic Issues in Language Technology 7 (1): 1-13.
Ghayoomi, M. 2014. From HPSG-based Persian Treebanking to Parsing: Machine Learning for Data Annotation. PhD Dissertation, Department of Mathematics and Computer Science, Freie Universität Berlin, Germany.
-   Jaafari-Dehaghi, Mahmoud. 1998. Dādestān ī Dēnīg. Studia Iranica, Cahier 20. Paris.
-   Jamasp-Asana, J.M. 1913. Pahlavi Texts. Bombay.
-   MacKenzie, D.N. 1971.  A Concise Pahlavi Dictionary. London.
-   Macuch, M. 2009. “Pahlavi Literature”, A History of Persian Literature, vol. XVII. ed. R.E. Emmerick & M. Macuch. New York
-   Nyberg, H.S.1964-1974. A Manual of Pahlavi. 2.vols (1964, vol.1; 1974, vol.2). Wiesbaden.
-   Shaked, Sh. 1979. The Wisdom of the Sasanian Sages, (Dēnkart VI). (Persian Heritage Series, 34). Boulder. Colarado.
-   Shaked, Sh. & Carlo G. Cereti, 2005, "A Middle Persian Dictionary: Project Proposal", Orientalia Romana 8: Middle Iranian Lexicography, Proceedings of the Conference held in Rome, 9-11 April 2001, C. G. Cereti and M. Maggi (eds.), pp. 181-190.
-   Williams, A.V., 1990, The Pahlavi Rivāyāt Accompanying the Dādestān ī Dēnīg.
 
منابع اینترنتی