ความถี่ตัวอักษรอารบิก


ความถี่ของตัวอักษรในข้อความมักได้รับการศึกษาเพื่อใช้ในการวิเคราะห์การเข้ารหัสและโดยเฉพาะ การวิเคราะห์ความถี่

ไม่มีภาษาใดที่มีการแจกแจงความถี่ของตัวอักษรที่แน่นอน เนื่องจากผู้เขียนทุกคนเขียนแตกต่างกันเล็กน้อย ตามกฎแล้ว ข้อความในภาษาต่างๆ ที่ใช้อักษรอารบิก (เช่นอารบิก ออตโตมัน ตุรกีเปอร์เซียและอูดู ) จะมีความถี่ตัวอักษรที่แตกต่างกัน ซึ่งเห็นได้ชัดเจนที่สุดในกรณีของตัวอักษรซึ่งใช้ในบางภาษาเท่านั้น (เช่น ตัวอักษรเปอร์เซีย پ, چ , گ ซึ่งไม่ได้ใช้เขียนเป็นภาษาอาหรับ)

วิธี การเข้ารหัสตัวอักษรที่ใช้บ่อยที่สุดด้วยสัญลักษณ์ที่สั้นที่สุดริเริ่มโดยรหัสโทรเลข และใช้ในเทคนิคการบีบอัดข้อมูลสมัยใหม่ เช่นการเข้ารหัสของ Huffman

ตัวอักษรอารบิก

ตัวอักษรอารบิกประกอบด้วยตัวอักษร หลัก28 ตัว ซึ่งเป็นตัวอักษร 1 ถึง 28 ในตารางที่ 1 ตัวอักษรที่แก้ไขแล้ว 8 ตัวที่แสดงอยู่ในตำแหน่ง 29 ถึง 36 ในตารางเดียวกันนั้นใช้แบบเดียวกัน[ ต้องชี้แจง ] หากรูปแบบที่แก้ไขทั้ง 8 รูปแบบถูกพับลงในรายการหลักตามรูปร่างหรือความคล้ายคลึงกันของสัทศาสตร์ ผลลัพธ์ที่ได้จะเป็นดังแสดงในตารางที่ 2 เพื่อการวิเคราะห์ความถี่ที่แม่นยำ ตัวอักษรทั้ง 36 ตัวในตารางที่ 1 จะถูกนับความถี่โดยแยกจากกัน

การเรียงลำดับตัวอักษรที่แสดงในตารางมีเหตุผลมากกว่าที่ใช้โดยมาตรฐาน Unicode

รูปที่ 1: อักขระอารบิกที่สามารถสร้างได้โดยใช้แป้นพิมพ์ตัวอักษรอารบิก Intellark
ตารางที่ 1: ตัวอักษรอารบิก ตัวอักษร 1 ถึง 28 เป็นตัวอักษรหลัก ตัวอักษร 29 ถึง 36 เป็นตัวอักษรที่แก้ไข
ตารางที่ 2: ตัวอักษรอารบิกที่มีตัวอักษรที่แก้ไขแล้วรวมอยู่ในรูปแบบหลัก
การกระจายความถี่ของตัวอักษรสำหรับตัวอักษรที่นับ: ข้อมูลฮิสโตแกรมจัดเรียงตามความถี่

แม้ว่าอักขระอารบิกทั้งชุดจะมีตัวกำกับเสียงประมาณ 10 ตัวดังแสดงในรูปที่ 1 การวิเคราะห์ความถี่ของอักขระอารบิกจะเกี่ยวข้องกับการคำนวณความถี่ของตัวอักษรที่แสดงในตารางที่ 2 เท่านั้น

ความถี่ตัวอักษรอารบิกโดยใช้แหล่งทั่วไป

แหล่งข้อมูลภาษาอาหรับต่อไปนี้ใช้เพื่อสร้างข้อมูลจำนวนที่ยอมรับได้ซึ่งมีการดำเนินการทางสถิติความถี่

  • เจ็ดเล่มแรกของชุดالبداية والنهاية ( The Beginning and The End ) [1]ของอิบนุ กะธีร์มี 2,855 หน้า มี 1,096,047 คำ มีตัวอักษร 4,326,031 ตัว
  • หนังสือالرحيق المتوم ( The Sealed Nectar ) [2]ของ Almubarakfuri มี 284 หน้า มี 134,662 คำ มีตัวอักษร 553,740 ตัว
  • หนังสือتحFAة العروسين ( ผลงานชิ้นเอกของเจ้าสาว ) [3]ของอัลชูริ จำนวน 239 หน้า มีจำนวนคำศัพท์ 66,550 คำ มีจำนวนตัวอักษร 242,361 ตัว

แหล่งข้อมูลเหล่านี้รวมกันได้มากถึง 3,378 หน้า โดยมีคำ 1,297,259 คำ และตัวอักษร 5,122,132 ตัว

กราฟต่อไปนี้แสดงการกระจายความถี่ของตัวอักษรสำหรับตัวอักษรที่นับ

จดหมาย ความถี่สัมพัทธ์ในภาษาอาหรับ
; 0.31% 0.31
 
; 0.09% 0.09
 
อา 0.28% 0.28
 
อา 12.50% 12.5
 
; 0.15% 0.15
 
อา 2.89% 2.89
 
; 1.00% 1
 
4.67% 4.67
 
เอ๋. 1.42% 1.42
 
2.61% 2.61
 
; 0.87% 0.87
 
1.23% 1.23
 
ฮะ 1.86% 1.86
 
0.79% 0.79
 
2.67% 2.67
 
, 0.96% 0.96
 
4.20% 4.2
 
ZA 0.52% 0.52
 
2.47% 2.47
 
0.73% 0.73
 
1.04% 1.04
 
0.44% 0.44
 
ต้า 0.50% 0.5
 
; 0.18% 0.18
 
ع 4.01% 4.01
 
گ 0.33% 0.33
 
2.84% 2.84
 
ق 2.69% 2.69
 
คะ 2.04% 2.04
 
12.07% 12.07
 
6.52% 6.52
 
นี 6.61% 6.61
 
ฮ่าๆ 5.08% 5.08
 
5.80% 5.8
 
อี 1.29% 1.29
 
ใช่ 6.36% 6.36
 

อ้างอิง

  1. อิบนุ กะธีร์, อิสมาอิล (ประมาณ 1300) จุดเริ่มต้นและจุดสิ้นสุด (เป็นภาษาอาหรับ) สืบค้นเมื่อ 23 มกราคม 2554 .
  2. อัลมูบารัคฟูรี, ซาฟียูร์ราห์มาน (2002) น้ำทิพย์ที่ปิดผนึก (เป็นภาษาอาหรับ) สิ่งพิมพ์ดารุสซาลาม ไอเอสบีเอ็น  978-1591440710. สืบค้นเมื่อ 24 มกราคม 2554 .
  3. อัชชูริ, มัจดี (ประมาณ ค.ศ. 1900) ผลงานชิ้นเอกของเจ้าสาว (ภาษาอาหรับ) . สืบค้นเมื่อ 24 มกราคม 2554 .

ลิงค์ภายนอก

  • เครื่องมือในการวิเคราะห์ตัวอักษรและคำศัพท์ภาษาอาหรับ
  • การศึกษาโดยละเอียดเกี่ยวกับการแจกแจงทางสถิติของตัวอักษรภาษาอาหรับ
Retrieved from "https://en.wikipedia.org/w/index.php?title=Arabic_letter_frequency&oldid=1171036854"