คัมภีร์กุรอานอารบิกคอร์ปัส

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา
คัมภีร์กุรอานอารบิกคอร์ปัส
ศูนย์วิจัย:มหาวิทยาลัยลีดส์
การเปิดตัวครั้งแรก:พฤศจิกายน 2552
ภาษา:คัมภีร์กุรอานภาษาอาหรับ, อังกฤษ
หมายเหตุ:วากยสัมพันธ์สัณฐานวิทยา
กรอบ:ไวยากรณ์การพึ่งพา
ใบอนุญาต:ใบอนุญาตสาธารณะทั่วไปของ GNU
เว็บไซต์:http://corpus.quran.com/
ต้นไม้ไวยากรณ์ การ พึ่งพาสำหรับข้อ (67:1)

Quranic Arabic Corpus เป็นแหล่งข้อมูลภาษาศาสตร์ ที่มีคำอธิบายประกอบซึ่งประกอบด้วยคำ 77,430 ของอัลกุรอานภาษาอาหรับ โครงการนี้มีจุดมุ่งหมายเพื่อให้คำอธิบายประกอบทางสัณฐานวิทยาและวากยสัมพันธ์สำหรับนักวิจัยที่ต้องการศึกษาภาษาของอัลกุรอาน [1] [2] [3] [4] [5]

ฟังก์ชั่น

การวิเคราะห์ทางไวยากรณ์ช่วยให้ผู้อ่านค้นพบความหมายโดยละเอียดของแต่ละข้อและประโยค แต่ละคำในอัลกุรอานจะถูกแท็กด้วยส่วนของคำพูดและลักษณะทางสัณฐานวิทยาหลายอย่าง กรอบไวยากรณ์ที่ Quranic Corpus นำมาใช้นั้นแตกต่างจาก corpora ภาษาอาหรับอื่นๆ ที่มีคำอธิบายประกอบ เป็นไวยากรณ์ภาษาอาหรับแบบดั้งเดิมของi'rab ( إﻋﺮﺍﺏ ) โครงการวิจัยนี้นำโดยKais Dukes แห่งมหาวิทยาลัยลีดส์ [ 4]และเป็นส่วนหนึ่งของกลุ่มวิจัยคอมพิวเตอร์ภาษาอาหรับภายใน School of Computing ซึ่งดูแลโดย Eric Atwell [6]

คลังข้อมูลที่มีคำอธิบายประกอบประกอบด้วย: [1] [7]

  • ส่วนของคำพูดที่ตรวจสอบด้วยตนเอง ที่ ติดแท็กคลังข้อมูล Quranic Arabic
  • ธนาคาร ต้นไม้ที่มีคำอธิบายประกอบของอัลกุรอานภาษาอาหรับ
  • การสร้างภาพรูปแบบใหม่ของไวยากรณ์ภาษาอาหรับ แบบดั้งเดิม ผ่านกราฟการพึ่งพา
  • การค้นหาทางสัณฐานวิทยาสำหรับคัมภีร์กุรอาน
  • ศัพท์ทางสัณฐานวิทยาที่เครื่องอ่านได้ของคำอัลกุรอานเป็นภาษาอังกฤษ
  • ความสอดคล้องส่วนหนึ่งของคำพูดสำหรับภาษาอาหรับกุรอานที่จัดโดยบทแทรก
  • กระดานข้อความออนไลน์สำหรับคำอธิบายประกอบอาสาสมัครชุมชน

คำอธิบายประกอบของ Corpus กำหนดแท็กส่วนหนึ่งของคำพูดและลักษณะทางสัณฐานวิทยาให้กับแต่ละคำ ตัวอย่างเช่น คำอธิบายประกอบเกี่ยวข้องกับการตัดสินใจว่าคำนั้นเป็นคำนามหรือกริยา และมีการผันคำสำหรับเพศชายหรือเพศหญิง ขั้นตอนแรกของโครงการเกี่ยวข้องกับการติดแท็กส่วนของคำพูดโดยอัตโนมัติโดยใช้เทคโนโลยีการคำนวณภาษาอาหรับกับข้อความ คำอธิบายประกอบสำหรับแต่ละ 77,430 คำในคัมภีร์อัลกุรอานได้รับการตรวจสอบเป็นระยะโดยผู้ทำคำอธิบายประกอบสองคน และการปรับปรุงยังคงดำเนินต่อไปเพื่อปรับปรุงความถูกต้องแม่นยำยิ่งขึ้น

การวิจัยทางภาษาศาสตร์สำหรับอัลกุรอานที่ใช้คลังข้อมูลที่มีคำอธิบายประกอบนั้นรวมถึงการฝึกอบรมตัว ติดแท็ก บางส่วนของคำพูดแบบซ่อน สำหรับภาษาอาหรับ[8]การจัดหมวดหมู่อัตโนมัติของบทอัลกุรอาน[9]และการวิเคราะห์ข้อความที่ คลุมเครือ [10]

นอกจากนี้ โปรเจ็กต์ยังจัดให้มีการแปลอัลกุรอาน แบบคำต่อคำ โดยอิงจากแหล่งข้อมูลภาษาอังกฤษที่เป็นที่ยอมรับ แทนที่จะสร้างคำแปลอัลกุรอานใหม่ [4]

ดูเพิ่มเติม

อ้างอิง

  1. a b K. Dukes , E. Atwell and N. Habash (2011). การทำงานร่วมกันภายใต้การดูแลสำหรับคำอธิบายประกอบวากยสัมพันธ์ของอัลกุรอานภาษาอาหรับ วารสารทรัพยากรภาษาและการประเมินผล (LREJ) ฉบับพิเศษเกี่ยวกับทรัพยากรภาษาที่สร้างขึ้นร่วมกัน
  2. กำกับดูแลการทำงานร่วมกันสำหรับคำอธิบายประกอบแบบวากยสัมพันธ์ ของ Quranic Arabicที่ ResearchGate อัปโหลดโดย Nizar Habashมหาวิทยาลัยโคลัมเบีย
  3. เค. ดุ๊กส์และที. บัควอลเตอร์ (2010) ต้นไม้พึ่งพาอาศัยของคัมภีร์กุรอานโดยใช้ไวยากรณ์ภาษาอาหรับแบบดั้งเดิม ในการดำเนินการของการประชุมนานาชาติด้านสารสนเทศและระบบ (INFOS) ครั้งที่ 7 กรุงไคโรประเทศอียิปต์.
  4. a b c The Quranic Arabic Corpus Archived 2013-02-23 at the Wayback Machine at The Muslim Tribune. 20 มิถุนายน 2554
  5. เอริก แอตเวลล์, แคลร์ ไบรเออร์ลีย์, ไคส์ ดุ๊กส์, มาจดี ซาวัลฮา และอับดุล-บากี ชาราฟ แนวทางปัญญาประดิษฐ์สำหรับเนื้อหาภาษาอาหรับและอิสลามบนอินเทอร์เน็ต[ ลิงก์เสียถาวร ] , หน้า 2. Riyadh : King Saud University , 2554.
  6. ^ วิศวกรรมศาสตร์. "โปรไฟล์สำหรับ Dr Eric Atwell - School of Computing - University of Leeds" . www.comp.leeds.ac.uk .
  7. ^ K. Dukes and Habash, N. (2011). การแยกวิเคราะห์ทางสถิติแบบขั้นตอนเดียวของการแทนแบบ Syntaxic การพึ่งพาอาศัยแบบผสม-องค์ประกอบ การประชุมระหว่างประเทศเกี่ยวกับการแยกวิเคราะห์เทคโนโลยี (IWPT) ดับลิน ไอร์แลนด์
  8. ↑ M. Albared , N. Omar and M. Ab Aziz (2011). การพัฒนา HMM ภาษาอาหรับ POS Tagger ที่แข่งขันได้โดยใช้ Small Training Corpora ระบบข้อมูลและฐานข้อมูลอัจฉริยะ สปริงเกอร์ เบอร์ลิน, ไฮเดลเบิร์ก
  9. ^ AM ชาราฟและอี. แอตเวลล์ (2554) การจัดหมวดหมู่อัตโนมัติของบทอัลกุรอาน การประชุมคอมพิวเตอร์ระหว่างประเทศครั้งที่ 7 ในภาษาอาหรับ (ICCA11) ริยาด, ซาอุดีอาระเบีย
  10. ^ C. Brierley, M. Sawalha และ E. Atwell (2012) Boundary Annotated Qur'an Corpus สำหรับการทำนายการแบ่งวลีภาษาอาหรับ เก็บถาวร 2018-12-15 ที่งาน สัมมนาประจำปี Wayback Machine IVACS เคมบริดจ์.

ลิงค์ภายนอก