ISO 11940

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

ISO 11940เป็นมาตรฐาน ISOสำหรับการทับศัพท์ของตัวอักษรไทยเผยแพร่ในปี 1998 และปรับปรุงในเดือนกันยายน 2003 และยืนยันในปี 2008 ส่วนขยายของมาตรฐานนี้ที่ชื่อISO 11940-2ให้คำจำกัดความการถอดความอย่างง่ายโดยอิงจากมาตรฐานนี้

พยัญชนะ

ไทย ซิก
ISO k ของ หืม kh k̛h ห๊ะ งึ ชา ch c̣h
 
ไทย ดิ เฒ่า  
ISO ไทย ไทย ไทย d t ไทย ไทย ไทย
 
ไทย ฝ่ พะเยา ภะ  
ISO พี ผ่ ph p̣h
 
ไทย สา ฬา
ISO y r วี l โล w หืม สา สา ชม x ชม

การทับศัพท์ ของ พยัญชนะบริสุทธิ์มาจากการออกเสียงตามปกติเป็นพยัญชนะเริ่มต้น hที่ไม่มีเครื่องหมายถูกใช้เพื่อสร้างdigraphs ที่ แสดงถึง พยัญชนะ ที่สำลัก พยัญชนะเสียงสูงและต่ำจะแยกความแตกต่างอย่างเป็นระบบโดยใช้มาครงกับพยัญชนะระดับสูง การแยกความแตกต่างเพิ่มเติมของพยัญชนะที่มี ฟังก์ชัน การออกเสียง เหมือนกัน นั้นได้มาจากการไม่ทำเครื่องหมายที่บ่อยที่สุด ทำเครื่องหมายจุดที่สองที่สามัญที่สุดด้วยจุดด้านล่าง ทำเครื่องหมายที่สามัญที่สุดที่สามด้วยแตร และทำเครื่องหมายที่สามัญที่สี่ด้วยการขีดเส้นใต้ การใช้จุดด้านล่างมีผลคล้ายกับIndologicalการฝึกแยกพยัญชนะ เรโทรเฟล็ กซ์โดยจุดด้านล่าง แต่มีความแตกต่างเล็กน้อย – เป็นการทับศัพท์ของ ธ​​โท ทองและ ศ โสศาลาซึ่งมีจุดอยู่ด้านล่าง ไม่ใช่พยัญชนะ เรโทรเฟล็ กซ์ ที่เกี่ยวข้อง การทับศัพท์ของพยัญชนะควรป้อนตามลำดับอักษรฐาน มาครง หากมี จากนั้นจุดด้านล่าง ฮอร์น หรือ "มาครงด้านล่าง"

มีพยัญชนะสามตัวเท่านั้นที่มีแตรในการทับศัพท์ คือ ฅkho khon , ฒทอ ภูเทาและ ษโส ฤาษีและมีพยัญชนะเพียงตัวเดียวที่มีการขีดเส้นใต้ ฑโท นาง มณโฑ .

สระ

ไทย –ั  ยำ –ิ –i – ึ – ื –ุ – อู ฤๅษี ฦไน
ISO เอ อ้า ออ ฉัน ฉัน ยู ยู ยู ยู อี æ o ฉัน ฉัน วี โล ɨ y w x

ตัวอักษรåเป็นอักขระ precomposed ตัวเดียวที่ระบุในผลลัพธ์ของการทับศัพท์

ลักษ์ยาว (ว) ปรากฏเฉพาะร่วมกับสระอักษร ฤ และ ฦ มาตรฐานแสดง ฤ และ ฦ กับพยัญชนะ และลักขงยาว กับสระ หลักสี่แยกจะทับศัพท์ด้วยอักษรตัวเล็ก "i" ด้วยขีด ( ɨ ) แต่ไม่ควรเกิดขึ้นในภาษาไทย ภาษาบาลี หรือสันสกฤต

การทับศัพท์ของ วwo waenและo o angถูกรวมไว้ที่นี่เนื่องจากใช้เป็นสัญลักษณ์เสียงสระที่สมบูรณ์ แต่การทับศัพท์ไม่ได้ขึ้นอยู่กับวิธีการใช้คำเหล่านั้น และมาตรฐานจะแสดงคำเหล่านั้นด้วยพยัญชนะ

สัญลักษณ์สระผสมถูกทับศัพท์ตามองค์ประกอบ

เครื่องหมายรวมอื่นๆ

ไทย –้ –บ้า –๋ –เ –๎ –ํ –ฺ
ISO –̀ –̂ –́ –̌ –̆ –̒ ~ –̊ –̥

โปรดทราบว่าyamakkan (–๎) จะแสดงด้วยเครื่องหมาย tilde เว้นวรรค ไม่ใช่ tilde ตัวยก

เครื่องหมายวรรคตอนและตัวเลข

ไทย สิ่งที่ ๒๒
ISO « ǂ § ǀ ǁ » 0 1 2 3 4 5 6 7 8 9

ISO 11940 :1998 แยกแยะความ แตก ต่าง ระหว่างสัญลักษณ์ย่อpaiyannoi ( ไพยันน้อยทับศัพท์เป็นǂและอังคันเดียวทับศัพท์เป็นǀ โปรดทราบว่าไป่ยันน้อย อังคันเดียว และ อัง คันคู ( ) มีการทับศัพท์โดยตัวอักษรที่ใช้สำหรับพยัญชนะคลิกไม่ใช่กริชคู่ แท่งแนวตั้ง หรือดันดา

ลำดับตัวละคร

โดยทั่วไปแล้ว อักขระจะถูกทับศัพท์จากซ้ายไปขวา และโดยที่อักขระมีตำแหน่งแนวนอนเหมือนกัน จากบนลงล่าง อันที่จริงการเรียงลำดับตามแนวตั้งนั้นระบุอย่างง่าย ๆ เป็นเครื่องหมายวรรณยุกต์และธานฐาคต (– ์) นำหน้าเครื่องหมายอื่นใดที่อยู่เหนือหรือใต้พยัญชนะ มาตรฐานปฏิเสธตอนท้ายมาตรา 4.2 ว่าการทับศัพท์ของsara u (◌ุ, ◌ู) และnikkhahit (◌ํ) สามารถเกิดขึ้นได้และยกตัวอย่างเมื่อระบุการทับศัพท์ของnikkhahitแต่ไม่แสดงการทับศัพท์ ของการรวมกัน ผลของกฎเหล่านี้คือ ยกเว้นนิกขหิตเครื่องหมายที่ไม่ใช่สระทั้งหมดที่ติดกับพยัญชนะภาษาไทยจะติดอยู่กับพยัญชนะในการทับศัพท์โรมัน

มาตรฐานยอมรับว่า การ พยายามเปลี่ยนเสียงสระและพยัญชนะที่บอกล่วงหน้าอาจจะทำให้สบายใจขึ้นกับคนที่เคยใช้กับอักษรโรมันแต่แนะนำว่าไม่ควรเปลี่ยนเสียงสระที่บอกล่วงหน้า

ตัวอย่างเช่นภาษาไทย ( RTGSPhasa Thai ) ควรทับศัพท์เป็นp̣has̛āịthyและเชียงใหม่ ( RTGSChiang Mai ) เป็น echīyngıhm̀

รูปแบบต่างๆ

สาเหตุ

มาตรฐานระบุลำดับที่ควรพิมพ์เครื่องหมายเน้นเสียง แต่ระบบอินพุตบางระบบเท่านั้นที่จะบันทึกการเน้นเสียงตามลำดับที่พิมพ์ Unicode ระบุรูปแบบมาตรฐานสองรูปแบบสำหรับตัวอักษรที่มีเครื่องหมายเน้นเสียงหลายแบบ และข้อความที่ทับศัพท์มีแนวโน้มสูงที่จะถูกจัดเก็บไว้ในรูปแบบใดรูปแบบหนึ่งเหล่านี้ สิ่งนี้ทำให้การทับศัพท์กลับอัตโนมัติมีความซับซ้อน เนื่องจากกระบวนการที่สอดคล้องกับ Unicode ต้องจัดการกับรูปแบบดังกล่าวอย่างถูกต้อง การทับศัพท์ในหน้านี้จึงได้รับเลือกเพื่อความสะดวกในการแสดงผล – ระบบการแสดงผลในปัจจุบันอาจแสดงรูปแบบที่เทียบเท่ากันต่างกัน

แบบอักษรจำนวนมากแสดงการผสมพยัญชนะและสำเนียงที่แปลกใหม่ไม่ดี ตัวอย่างเช่น สถาบันภาษาเอสโตเนียเผยแพร่คำอธิบายเกี่ยวกับการใช้มาตรฐานกับภาษาไทยบนเว็บ และดูเหมือนว่าจะเป็นไปตามมาตรฐานด้วยข้อยกเว้นประการหนึ่ง ข้อยกเว้นคือ ยกเว้นสำหรับมาครง การเน้นเสียงเหนือพยัญชนะจริง ๆ แล้วถูกหักล้างไปทางขวา ทำให้รู้สึกว่ามีการป้อนอักขระดังกล่าวเป็นอักขระที่ไม่ผสมรวมกันที่สอดคล้องกัน มาตรฐานระบุการทับศัพท์ในจุดรหัส แต่ผู้ที่ทำงานจากคำอธิบายฟรีนี้สามารถอนุมานได้อย่างง่ายดายว่ารูปแบบการเว้นวรรคของส่วนเน้นเสียงควรใช้

ห้องไอซียู (CLDR 1.4.1)

การ ใช้งาน ICUที่บันทึกไว้ในเวอร์ชัน 1.4.1 ของCommon Locale Data Repositoryซึ่งสนับสนุนโดยUnicode [ 1]ใช้เฉพาะแทนเสียงแตรในการทับศัพท์ของพยัญชนะ สิ่งนี้มีผลต่อการทับศัพท์ของ ฅkho khon , เฒท ภูเทาและโส บ่อฤาษี ถึง patakยังทับศัพท์ต่างกันเช่นมากกว่า .

การดำเนินการนี้ทับศัพท์ ำ เป็น  แทนที่จะเป็นåเพื่อหลีกเลี่ยงความคลุมเครือด้วยลำดับอักษรไทยสมมุติ ะํ ( sara a , nikkhahit ) การใช้งาน ICU จะทับศัพท์phinthuเป็นˌแทนการหลีกเลี่ยงปัญหาใน การทำให้ Unicodeเป็นมาตรฐาน สิ่งนี้มีผลข้างเคียงของการปรับปรุงความชัดเจนเมื่อนำไปใช้กับพยัญชนะที่ขีดเส้นใต้

การนำ ICU ไปใช้ทับศัพท์ ฯปายน้อยน้อยเป็น (กริชคู่) และอังคันคูเป็น|| (แถบแนวตั้ง ASCII สองแท่ง) เนื่องจากการใช้งาน ICU ใช้ Unicode จึงไม่สามารถแยกแยะangkhandiaoจากpaiyannoi ได้อย่างน่าเชื่อถือ หาก ไม่มีการวิเคราะห์เชิงความหมาย และไม่ได้พยายามทำเช่นนั้น

การจัดลำดับอักขระของการนำ ICU ไปใช้นั้นแตกต่างกัน มันแปลงเสียงสระ preposed ด้วยพยัญชนะต่อไปนี้และประมวลผลเครื่องหมายบนพยัญชนะตามลำดับที่เก็บไว้ในหน่วยความจำ (วิธีการป้อนข้อมูลภาษาไทยส่วนใหญ่ช่วยให้แน่ใจว่าเครื่องหมายถูกจัดเก็บไว้ในลำดับจากล่างขึ้นบน) จะไม่เปลี่ยนเสียงสระที่พรีโพซิชั่นด้วยกลุ่มพยัญชนะที่สมบูรณ์ ไม่สามารถระบุกลุ่มพยัญชนะได้อย่างแม่นยำ และการแปลงเสียงสระกับกลุ่มจะต้องใช้สัญลักษณ์เพิ่มเติมเพื่อให้แปลงกลับเป็นอักษรไทยได้อย่างน่าเชื่อถือ

ตัวอย่างเช่น ภายใต้การใช้งานนี้ภาษาไทยทับศัพท์เป็น p̣hasāthịyและเชียงใหม่ถึงcheīynghīm̀

สุดท้าย การใช้งานนี้จะสร้างการทับศัพท์ในUnicode Normalization Form C (NFC)

ดูเพิ่มเติม

อ้างอิง

  1. ^ http://unicode.org/Public/cldr/1.4.1/core.zip files transforms/ThaiLogical-Latin.xml and transforms/Thai-ThaiLogical.xml (ใช้โดย ตัว แปลของ ICU "Thai-Latin" และ "Latin- ไทย")

ลิงค์ภายนอก