แท็กภาษา IETF

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

IETF BCP 47 แท็กภาษาเป็นรหัสมาตรฐานหรือแท็กที่ใช้ในการระบุภาษาของมนุษย์ในการเขียนโปรแกรมอินเทอร์เน็ตที่ใช้ตามมาตรฐานเช่นการคำนวณHTTP , [1] HTML , [2] XML [3]และPNG [4]โครงสร้างแท็กได้รับมาตรฐานโดยInternet Engineering Task Force (IETF) ในแนวทางปฏิบัติที่ดีที่สุดในปัจจุบัน (BCP) 47 ; แท็กย่อยที่มีการเก็บรักษาโดยIANAภาษาแท็กย่อย Registry [5] [6] [7]ในการแยกแยะความแตกต่างของภาษาพันธุ์สำหรับประเทศ ,ภูมิภาคหรือระบบการเขียน , แท็กภาษา IETF รวมแท็กย่อยจากมาตรฐานอื่น ๆ เช่นISO 639 , ISO 15924 , ISO 3166-1และสหประชาชาติ M.49

น่าสังเกตว่า [ ทำไม? ]แท็กenย่อมาจากภาษาอังกฤษ ; es-419สำหรับภาษาสเปนละตินอเมริกา ; rm-sursilvสำหรับSursilvan ; gsw-u-sd-chzhสำหรับZürich German ; น่าน-Hant-TWสำหรับนน่านจีนที่พูดในไต้หวันโดยใช้ตัวอักษรฮันแบบดั้งเดิม

ประวัติ

แท็กภาษา IETF ถูกกำหนดครั้งแรกใน RFC 1766 แก้ไขโดยHarald Tveit Alvestrandเผยแพร่ในเดือนมีนาคม 1995 แท็กใช้รหัสภาษาสองตัวอักษร ISO 639 และรหัสประเทศสองตัวอักษร ISO 3166 และอนุญาตให้ลงทะเบียนแท็กทั้งหมดที่รวมตัวแปรหรือ แท็กย่อยของสคริปต์ที่มีตัวอักษรสามถึงแปดตัว

ในเดือนมกราคม 2544 สิ่งนี้ได้รับการปรับปรุงโดย RFC 3066 ซึ่งเพิ่มการใช้รหัสสามตัวอักษรISO 639-2แท็กย่อยที่อนุญาตด้วยตัวเลข และใช้แนวคิดของช่วงภาษาตั้งแต่ HTTP/1.1 เพื่อช่วยในการจับคู่แท็กภาษา

การแก้ไขข้อกำหนดครั้งต่อไปเกิดขึ้นในเดือนกันยายน 2549 โดยมีการเผยแพร่ RFC 4646 (ส่วนหลักของข้อกำหนด) แก้ไขโดย Addison Philips และMark Davisและ RFC 4647 (ซึ่งเกี่ยวข้องกับพฤติกรรมการจับคู่) RFC 4646 นำเสนอรูปแบบที่มีโครงสร้างมากขึ้นสำหรับแท็กภาษา เพิ่มการใช้รหัสสคริปต์สี่ตัวอักษร ISO 15924 และรหัสพื้นที่ทางภูมิศาสตร์ 3 หลักของ UN M.49 และแทนที่รีจิสทรีเก่าของแท็กด้วยรีจิสทรีของแท็กย่อยใหม่ แท็กที่กำหนดไว้ก่อนหน้านี้จำนวนเล็กน้อยซึ่งไม่สอดคล้องกับโครงสร้างใหม่ได้รับการปู่ย่าตายายเพื่อรักษาความเข้ากันได้กับ RFC 3066

รุ่นปัจจุบันของข้อกำหนด RFC 5646 เผยแพร่ในเดือนกันยายน 2552 วัตถุประสงค์หลักของการแก้ไขนี้คือการรวมรหัสตัวอักษรสามตัวจากISO 639-3และ639-5ลงใน Language Subtag Registry เพื่อเพิ่มความสามารถในการทำงานร่วมกัน ระหว่าง ISO 639 และ BCP 47 [8]

ไวยากรณ์ของแท็กภาษา

แท็กภาษาแต่ละแท็กประกอบด้วย "แท็กย่อย" อย่างน้อยหนึ่งแท็กโดยคั่นด้วยเครื่องหมายขีดกลาง (-) แต่ละแท็กย่อยประกอบด้วยตัวอักษรละตินพื้นฐานหรือตัวเลขเท่านั้น

ด้วยข้อยกเว้นของแท็กภาษาสำหรับใช้งานส่วนตัวที่ขึ้นต้นด้วยx-นำหน้าและแท็กภาษาแบบปู่ (รวมถึงแท็กที่ขึ้นต้นด้วยคำนำหน้าi-และแท็กที่ลงทะเบียนไว้ก่อนหน้านี้ใน Language Tag Registry แบบเก่า) แท็กย่อยจะเกิดขึ้นตามลำดับต่อไปนี้:

  • แท็กย่อยภาษาหลักเดียวตามรหัสภาษาสองตัวอักษรจากISO 639-1 (2002) หรือรหัสสามตัวอักษรจากISO 639-2 (1998), ISO 639-3 (2007) หรือ ISO 639-5 (2008) ) หรือลงทะเบียนผ่านกระบวนการ BCP 47 และประกอบด้วยตัวอักษรห้าถึงแปดตัว
  • แท็กย่อยภาษาเพิ่มเติมที่เป็นตัวเลือกสูงสุดสามแท็กประกอบด้วยตัวอักษรสามตัวแต่ละตัว คั่นด้วยเครื่องหมายขีดกลาง (ขณะนี้ไม่มีแท็กย่อยของภาษาเพิ่มเติมที่ลงทะเบียนใน Language Subtag Registry โดยไม่มีแท็กย่อยภาษาหลักที่เทียบเท่าและเป็นที่ต้องการ ส่วนประกอบของแท็กภาษานี้ได้รับการเก็บรักษาไว้สำหรับความเข้ากันได้แบบย้อนหลังและเพื่ออนุญาตให้ใช้ส่วนต่างๆ ของ ISO 639 ในอนาคต)
  • แท็กย่อยสคริปต์ที่เป็นตัวเลือกตามรหัสสคริปต์สี่ตัวอักษรจากISO 15924 (ปกติจะเขียนด้วยตัวพิมพ์ชื่อเรื่อง )
  • แท็กย่อยภูมิภาคที่เป็นตัวเลือกตามรหัสประเทศสองตัวอักษรจากISO 3166-1 alpha-2 (ปกติจะเขียนด้วยตัวพิมพ์ใหญ่) หรือรหัสสามหลักจากUN M.49สำหรับภูมิภาคทางภูมิศาสตร์
  • แท็กย่อยที่เป็นตัวเลือกคั่นด้วยเครื่องหมายขีดคั่น แต่ละอันประกอบด้วยตัวอักษรห้าถึงแปดตัว หรืออักขระสี่ตัวที่ขึ้นต้นด้วยตัวเลข (แท็กย่อยของตัวแปรได้รับการจดทะเบียนกับ IANA และไม่เกี่ยวข้องกับมาตรฐานภายนอกใดๆ)
  • แท็กย่อยส่วนขยายเสริมคั่นด้วยเครื่องหมายยัติภังค์ แต่ละอันประกอบด้วยอักขระตัวเดียว ยกเว้นตัวอักษรxและเครื่องหมายยัติภังค์ที่ตามด้วยแท็กย่อยหนึ่งแท็กหรือมากกว่า โดยแต่ละอักขระมีอักขระสองถึงแปดตัว คั่นด้วยเครื่องหมายยัติภังค์
  • แท็กย่อยสำหรับใช้งานส่วนตัวที่เป็นทางเลือกประกอบด้วยตัวอักษรxและยัติภังค์ตามด้วยแท็กย่อยที่มีความยาวตั้งแต่ 1 ถึง 8 อักขระ โดยคั่นด้วยเครื่องหมายยัติภังค์

แท็กย่อยไม่ได้เป็นกรณี ๆ ไปแต่สเปคแนะนำให้ใช้กรณีเช่นเดียวกับในภาษาแท็กย่อย Registry ที่แท็กย่อยภูมิภาคเป็นตัวพิมพ์ใหญ่ , แท็กย่อยสคริปต์มีชื่อเรื่องกรณีและแท็กย่อยอื่น ๆ ทั้งหมดเป็นตัวพิมพ์เล็กการใช้อักษรตัวพิมพ์ใหญ่นี้เป็นไปตามคำแนะนำของมาตรฐาน ISO พื้นฐาน

ขอแนะนำให้ละเว้นแท็กย่อยสคริปต์และภูมิภาคที่เป็นทางเลือกเมื่อไม่ได้เพิ่มข้อมูลที่แตกต่างให้กับแท็กภาษา ยกตัวอย่างเช่นESเป็นที่ต้องการมากกว่าES-Latnเป็นภาษาสเปนเป็นที่คาดหวังอย่างเต็มที่ที่จะต้องจารึกไว้ในสคริปต์ละติน; jaเป็นที่นิยมมากกว่าja-JPเนื่องจากภาษาญี่ปุ่นที่ใช้ในญี่ปุ่นไม่แตกต่างจากภาษาญี่ปุ่นอย่างชัดเจนเมื่อใช้ที่อื่น

ภูมิภาคภาษาศาสตร์ทั้งหมดไม่สามารถแสดงด้วยแท็กย่อยของภูมิภาคที่ถูกต้องได้: ภาษาถิ่นของภูมิภาคย่อยของภาษาหลักได้รับการลงทะเบียนเป็นแท็กย่อยแบบแปรผัน ยกตัวอย่างเช่นวาเลนเซียแท็กย่อยที่แตกต่างกันสำหรับบาเลนเซียภาษาคาตาลันจดทะเบียนในภาษาแท็กย่อย Registry กับคำนำหน้าCA เนื่องจากภาษาถิ่นนี้ใช้พูดกันในสเปนโดยเฉพาะปกติแท็กย่อยของภูมิภาคESสามารถละเว้นได้

แท็กภาษา IETF ถูกใช้เป็นตัวระบุสถานที่ในหลายแอปพลิเคชัน อาจจำเป็นสำหรับแอปพลิเคชันเหล่านี้เพื่อสร้างกลยุทธ์ของตนเองสำหรับการกำหนด เข้ารหัส และจับคู่โลแคล หากกลยุทธ์ที่อธิบายไว้ใน RFC 4647 ไม่เพียงพอ

การใช้ การตีความ และการจับคู่แท็กภาษา IETF ถูกกำหนดใน RFC 5646 และ RFC 4647 ในปัจจุบัน Language Subtag Registry แสดงรายการแท็กย่อยสาธารณะที่ถูกต้องทั้งหมดในปัจจุบัน แท็กย่อยสำหรับใช้งานส่วนตัวไม่รวมอยู่ในรีจิสทรี เนื่องจากแท็กย่อยเหล่านี้ขึ้นอยู่กับการใช้งานและอยู่ภายใต้ข้อตกลงส่วนตัวระหว่างบุคคลที่สามที่ใช้แท็กเหล่านี้ ข้อตกลงส่วนตัวเหล่านี้อยู่นอกขอบเขต BCP 47

ความสัมพันธ์กับมาตรฐานอื่นๆ

แม้ว่าแท็กย่อยบางประเภทจะมาจากมาตรฐานหลักของISOหรือUNแต่ก็ไม่เป็นไปตามมาตรฐานเหล่านี้โดยเด็ดขาด เนื่องจากอาจทำให้ความหมายของแท็กภาษาเปลี่ยนไปตามกาลเวลา โดยเฉพาะอย่างยิ่ง แท็กย่อยที่ได้มาจากโค้ดที่กำหนดโดยISO 639 , ISO 15924 , ISO 3166หรือUN M.49ยังคงเป็นแท็กย่อยที่ถูกต้อง (แม้ว่าจะเลิกใช้แล้ว) แม้ว่าโค้ดจะถูกถอนออกจากมาตรฐานหลักที่เกี่ยวข้องก็ตาม หากมาตรฐานกำหนดความหมายใหม่ให้กับรหัสที่ถูกถอนในภายหลัง แท็กย่อยที่เกี่ยวข้องจะยังคงมีความหมายเดิม

ความเสถียรนี้ถูกนำมาใช้ใน RFC 4646

ISO 639-3 และ ISO 639-1

RFC 4646 กำหนดแนวคิดของ "แท็กย่อยภาษาเพิ่มเติม" (บางครั้งเรียกว่าextlang ) แม้ว่าจะไม่ได้ลงทะเบียนแท็กย่อยดังกล่าวในขณะนั้น[9] [ การตรวจสอบล้มเหลว ] [10] [ การตรวจสอบล้มเหลว ]

RFC 5645 และ RFC 5646 เพิ่มแท็กย่อยของภาษาหลักที่สอดคล้องกับรหัส ISO 639-3สำหรับทุกภาษาที่ยังไม่มีอยู่ใน Registry นอกจากนี้ รหัสสำหรับภาษาที่ล้อมรอบด้วยภาษามาโครบางภาษาได้รับการลงทะเบียนเป็นแท็กย่อยของภาษาเพิ่มเติม เข้าสู่ระบบภาษานอกจากนี้ยังได้รับการจดทะเบียนเป็น extlangs กับคำนำหน้าSGNภาษาเหล่านี้อาจแสดงด้วยแท็กย่อยสำหรับภาษาที่ล้อมรอบเพียงอย่างเดียว ( cmnสำหรับภาษาจีนกลาง) หรือด้วยการรวมภาษา-extlang ( zh-cmn ) ตัวเลือกแรกเป็นที่ต้องการสำหรับวัตถุประสงค์ส่วนใหญ่ ตัวเลือกที่สองเรียกว่า "extlang form" และอยู่ใน RFC 5646

แท็กทั้งหมดที่ลงทะเบียนก่อน RFC 4646 และขณะนี้จัดอยู่ในประเภท "grandfathered" หรือ "redundant" (ขึ้นอยู่กับว่าเหมาะสมกับไวยากรณ์ใหม่หรือไม่) จะเลิกใช้แท็กย่อยภาษาตาม ISO 639-3 ที่เกี่ยวข้อง หากมี . เพื่อแสดงรายการตัวอย่างnanเป็นที่ต้องการมากกว่าzh-min-nanสำหรับMin Nan Chinese; hakเป็นที่ต้องการมากกว่าi-hakและzh-hakkaสำหรับHakka Chinese ; และASEเป็นที่ต้องการมากกว่าSGN-USสำหรับภาษามืออเมริกัน

ISO 639-5 และ ISO 639-2

ISO 639-5กำหนดคอลเล็กชันภาษาด้วยรหัสอัลฟ่า-3 ในรูปแบบที่แตกต่างจากที่เคยเข้ารหัสไว้ใน ISO 639-2 (รวมถึงหนึ่งโค้ดที่มีอยู่แล้วใน ISO 639-1) โดยเฉพาะอย่างยิ่ง คอลเลกชั่นภาษาทั้งหมดถูกกำหนดไว้ใน ISO 639-5 แบบรวม แทนที่จะกำหนดบางส่วนไว้โดยเฉพาะ ซึ่งหมายความว่าคอลเลกชั่นภาษามีขอบเขตที่กว้างกว่าที่เคย ในบางกรณีอาจรวมภาษาที่เข้ารหัสแยกไว้ต่างหากภายใน ISO 639-2

ตัวอย่างเช่นก่อนหน้านี้รหัส ISO 639-2 afaเชื่อมโยงกับชื่อ "Afro-Asiatic (อื่นๆ)" ยกเว้นภาษาต่างๆ เช่น ภาษาอาหรับที่มีรหัสของตนเองอยู่แล้ว ใน ISO 639-5 คอลเล็กชันนี้มีชื่อว่า "ภาษาแอฟโฟร-เอเชียติก" และรวมภาษาดังกล่าวทั้งหมด ISO 639-2 เปลี่ยนชื่อเฉพาะในปี 2552 เพื่อให้ตรงกับชื่อ ISO 639-5 ที่รวมไว้ (11)

เพื่อหลีกเลี่ยงการทำลายการใช้งานที่อาจยังคงขึ้นอยู่กับคำจำกัดความที่เก่ากว่า (พิเศษ) ของคอลเลกชันเหล่านี้ ISO 639-5 กำหนดแอตทริบิวต์ประเภทการจัดกลุ่มสำหรับคอลเลกชันทั้งหมดที่มีการเข้ารหัสแล้วใน ISO 639-2 (ประเภทการจัดกลุ่มดังกล่าวไม่ได้กำหนดไว้สำหรับใหม่ คอลเลกชันที่เพิ่มเฉพาะใน ISO 639-5)

BCP 47 กำหนดคุณสมบัติ "ขอบเขต" เพื่อระบุแท็กย่อยสำหรับคอลเลกชันภาษา อย่างไรก็ตาม ไม่ได้กำหนดคอลเล็กชันที่ระบุว่าเป็นแบบรวมหรือแบบเอกสิทธิ์ และไม่ใช้แอตทริบิวต์ประเภทการจัดกลุ่ม ISO 639-5 แม้ว่าช่องคำอธิบายใน Language Subtag Registry สำหรับแท็กย่อยเหล่านี้จะตรงกับชื่อ ISO 639-5 (รวม) ด้วยเหตุนี้ แท็กภาษา BCP 47 ที่มีแท็กย่อยภาษาหลักสำหรับคอลเล็กชันจึงอาจคลุมเครือว่าคอลเล็กชันมีจุดมุ่งหมายเพื่อรวมหรือผูกขาดหรือไม่

ISO 639-5 ไม่ได้กำหนดไว้อย่างชัดเจนว่าภาษาใดที่เป็นสมาชิกของคอลเล็กชันเหล่านี้ เฉพาะการจำแนกประเภทลำดับชั้นของคอลเลกชันเท่านั้นที่กำหนด โดยใช้คำจำกัดความรวมของคอลเลกชันเหล่านี้ ด้วยเหตุนี้ RFC 5646 จึงไม่แนะนำให้ใช้แท็กย่อยสำหรับคอลเลกชั่นภาษาสำหรับแอปพลิเคชันส่วนใหญ่ แม้ว่าจะยังคงเป็นที่นิยมมากกว่าแท็กย่อยที่มีความหมายเฉพาะเจาะจงน้อยกว่า เช่น "หลายภาษา" และ "ไม่ได้กำหนดไว้"

ในทางตรงกันข้าม การจำแนกประเภทของภาษาแต่ละภาษาภายในภาษามาโครนั้นได้มาตรฐาน ทั้งใน ISO 639-3 และ Language Subtag Registry

ISO 15924, ISO/IEC 10646 และ Unicode

แท็กย่อยสคริปต์เป็นครั้งแรกที่จะเพิ่มภาษาแท็กย่อย Registry เมื่อ RFC 4646 ถูกตีพิมพ์จากรายการของรหัสที่กำหนดไว้ในมาตรฐาน ISO 15924 พวกมันถูกเข้ารหัสในแท็กภาษาหลังแท็กย่อยของภาษาหลักและแบบขยาย แต่ก่อนแท็กย่อยประเภทอื่นๆ รวมถึงแท็กย่อยภูมิภาคและตัวแปร

แท็กย่อยของภาษาหลักบางแท็กถูกกำหนดด้วยคุณสมบัติชื่อ "Suppress-Script" ซึ่งระบุกรณีที่โดยปกติแล้วสคริปต์ตัวเดียวสามารถสันนิษฐานได้ตามค่าเริ่มต้นสำหรับภาษานั้น แม้ว่าจะสามารถเขียนด้วยสคริปต์อื่นได้ ในกรณีนี้ เป็นการดีกว่าที่จะละเว้นแท็กย่อยของสคริปต์ เพื่อปรับปรุงโอกาสในการจับคู่ที่ประสบความสำเร็จ แท็กย่อยสคริปต์อื่นยังคงสามารถต่อท้ายเพื่อสร้างความแตกต่างได้เมื่อจำเป็น ยกตัวอย่างเช่นยี่เป็นที่ต้องการมากกว่าYi-Hebrในบริบทที่มากที่สุดเพราะสคริปต์ภาษาฮิบรูแท็กย่อยจะสันนิษฐานสำหรับยิดดิชภาษา

อีกตัวอย่างหนึ่งzh-Hans-SGอาจถือว่าเทียบเท่ากับzh-Hansเนื่องจากรหัสภูมิภาคอาจไม่มีนัยสำคัญ รูปแบบการเขียนภาษาจีนที่ใช้ในสิงคโปร์ใช้อักษรจีนตัวย่อแบบเดียวกับในประเทศอื่นๆ ที่เขียนภาษาจีน อย่างไรก็ตาม แท็กย่อยของสคริปต์ยังคงอยู่เนื่องจากมีความสำคัญ

โปรดทราบว่ามาตรฐาน ISO 15924 รวมถึงรหัสบางอย่างสำหรับสายพันธุ์สคริปต์ (เช่นฮันส์และHantสำหรับรูปแบบที่เรียบง่ายและแบบดั้งเดิมของตัวอักษรจีน) ที่เป็นปึกแผ่นภายในUnicodeและมาตรฐาน ISO / IEC 10646 ตัวแปรของสคริปต์เหล่านี้มักมีการเข้ารหัสเพื่อวัตถุประสงค์ทางบรรณานุกรม แต่ไม่สำคัญเสมอไปจากมุมมองทางภาษาศาสตร์ (เช่นLatfและLatgรหัสสคริปต์สำหรับรูปแบบ Fraktur และ Gaelic ของสคริปต์ละติน ซึ่งส่วนใหญ่เข้ารหัสด้วยตัวอักษรละตินปกติใน Unicode และ ISO/IEC 10646) บางครั้งอาจมีประโยชน์ในแท็กภาษาเพื่อแสดงความแตกต่างทางออร์โธกราฟิกหรือความหมาย โดยการวิเคราะห์ตัวอักษร เครื่องหมายกำกับเสียง และไดกราฟ/ไตรกราฟต่างๆ เป็นกลุ่มกราฟเริ่มต้น หรือความแตกต่างในกฎตัวพิมพ์ของตัวอักษร

ISO 3166-1 และ UN M.49

ตัวอักษรสองตัวแท็กย่อยภูมิภาคจะขึ้นอยู่กับรหัสที่ได้รับมอบหมายหรือ "ลิขสิทธิ์ล้ำ" ใน3166-1หากหน่วยงานบำรุงรักษา ISO 3166 ต้องกำหนดรหัสใหม่ที่เคยกำหนดให้กับประเทศอื่น แท็กย่อย BCP 47 ที่มีอยู่ซึ่งสอดคล้องกับรหัสนั้นจะคงความหมายไว้ และแท็กย่อยภูมิภาคใหม่ตามUN M.49จะได้รับการจดทะเบียน ประเทศใหม่ UN M.49 ยังเป็นแหล่งที่มาของแท็กย่อยของภูมิภาคที่เป็นตัวเลขสำหรับภูมิภาคทางภูมิศาสตร์ เช่นอเมริกาใต้ ไม่อนุญาตให้ใช้รหัส UN M.49 สำหรับเขตเศรษฐกิจ 005

แท็กย่อยของภูมิภาคใช้เพื่อระบุความหลากหลายของภาษา "ตามที่ใช้ใน" ภูมิภาคหนึ่งๆ มีความเหมาะสมเมื่อความหลากหลายมีลักษณะในระดับภูมิภาค และสามารถจับได้อย่างเพียงพอโดยการระบุประเทศที่เกี่ยวข้อง เช่น เมื่อแยกแยะภาษาอังกฤษแบบบริติช ( en-GB ) จากภาษาอังกฤษแบบอเมริกัน ( en-US ) เมื่อความแตกต่างเป็นหนึ่งในสคริปต์หรือความหลากหลายของสคริปต์ สำหรับตัวอักษรจีนตัวย่อกับตัวอักษรจีนดั้งเดิมควรจะแสดงด้วยแท็กย่อยของสคริปต์แทนที่จะเป็นแท็กย่อยของภูมิภาค ในตัวอย่างนี้zh-Hansและzh-Hantควรจะนำมาใช้แทนzh-CNและzh-HK

เมื่อมีแท็กย่อยของภาษาที่แตกต่างกันสำหรับภาษาที่สามารถพิจารณาได้ว่าเป็นความหลากหลายในระดับภูมิภาค มักจะดีกว่าที่จะใช้แท็กย่อยที่เจาะจงมากกว่า แทนที่จะใช้ชุดค่าผสมระหว่างภาษากับภูมิภาค ยกตัวอย่างเช่นAR-DZ ( ภาษาอาหรับที่ใช้ในสาธารณรัฐประชาธิปไตยประชาชนแอลจีเรีย ) อาจจะแสดงออกได้ดีขึ้นเป็นArqสำหรับแอลจีเรียพูดภาษาอาหรับ

ส่วนขยาย

แท็กย่อยส่วนขยาย (เพื่อไม่ให้สับสนกับแท็กย่อยของภาษาเพิ่มเติม ) อนุญาตให้แนบข้อมูลเพิ่มเติมกับแท็กภาษาที่ไม่จำเป็นต้องใช้เพื่อระบุภาษา การใช้ส่วนขยายอย่างหนึ่งคือการเข้ารหัสข้อมูลสถานที่ เช่น ปฏิทินและสกุลเงิน

แท็กย่อยขยายจะประกอบด้วยหลายยัติภังค์คั่นสตริงตัวอักษรที่ขึ้นต้นด้วยตัวอักษรตัวเดียว (นอกเหนือx ) เรียกว่าเดี่ยว ส่วนขยายแต่ละรายการมีการอธิบายไว้ในIETF RFCของตัวเองซึ่งระบุหน่วยงานในการลงทะเบียนเพื่อจัดการข้อมูลสำหรับส่วนขยายนั้น IANAมีหน้าที่รับผิดชอบในการจัดสรรซิงเกิลตัน

มีการกำหนดส่วนขยายสองรายการในเดือนมกราคม 2014

ส่วนขยาย T (เนื้อหาที่แปลงแล้ว)

ส่วนขยาย T อนุญาตให้แท็กภาษารวมข้อมูลเกี่ยวกับวิธีที่ข้อมูลที่แท็กถูกทับศัพท์ ถอดเสียง หรือแปลงอย่างอื่น ตัวอย่างเช่น แท็กen-t-jpสามารถใช้สำหรับเนื้อหาในภาษาอังกฤษที่แปลจากต้นฉบับภาษาญี่ปุ่น สตริงย่อยเพิ่มเติมอาจบ่งชี้ว่าการแปลนั้นทำโดยใช้กลไกหรือเป็นไปตามมาตรฐานที่เผยแพร่

ขยาย T อธิบายไว้ใน RFC 6497 ตีพิมพ์ในเดือนกุมภาพันธ์ 2012 ลงทะเบียนผู้มีอำนาจเป็นUnicode Consortium

ส่วนขยาย U (Unicode Locale)

Extension U อนุญาตให้ฝังแอตทริบิวต์ locale ที่หลากหลายที่พบในCommon Locale Data Repository (CLDR) เพื่อฝังในแท็กภาษา แอตทริบิวต์เหล่านี้รวมถึงส่วนย่อยของประเทศ ข้อมูลปฏิทินและโซนเวลา ลำดับการเรียง สกุลเงิน ระบบตัวเลข และการระบุแป้นพิมพ์

ตัวอย่างบางส่วน ได้แก่ :

ขยาย U อธิบายไว้ใน RFC 6067 ตีพิมพ์ในเดือนธันวาคมปี 2010 ที่ลงทะเบียนมีอำนาจเป็นUnicode Consortium

ดูเพิ่มเติม

อ้างอิง

  1. ^ ฟีลดิง รอย ที.; Reschke, Julian F. , สหพันธ์. (มิถุนายน 2557). "แท็กภาษา" . Hypertext Transfer Protocol (HTTP / 1.1): ความหมายและเนื้อหา วินาที 3.1.3.1. ดอย : 10.17487/RFC7231 . RFC 7231
  2. ^ "ข้อมูลภาษาและทิศทางของข้อความ" . w3.org . สืบค้นเมื่อ28 กรกฎาคม 2558 .
  3. ^ "Extensible Markup Language (XML) 1.0 (รุ่นที่ห้า)" . w3.org . สืบค้นเมื่อ28 กรกฎาคม 2558 .
  4. ^ "ข้อกำหนดกราฟิกเครือข่ายแบบพกพา (PNG) (รุ่นที่สอง)" . w3.org . สืบค้นเมื่อ28 กรกฎาคม 2558 .
  5. ^ "รีจิสทรีแท็กย่อยของภาษา" . iana.org . อินเทอร์เน็ตที่ได้กำหนดหมายเลขผู้ให้ สืบค้นเมื่อ2018-12-05 .
  6. ^ "ภาษาแท็กส่วนขยายรีจิสทรี" iana.org . อินเทอร์เน็ตที่ได้กำหนดหมายเลขผู้ให้ สืบค้นเมื่อ2018-12-06 .
  7. ^ "IANA — ทะเบียนโปรโตคอล" . iana.org . สืบค้นเมื่อ28 กรกฎาคม 2558 .
  8. ^ กฎบัตรการปรับปรุงการจดทะเบียนแท็กภาษา เก็บถาวร 2007-02-10 ที่เครื่อง Wayback
  9. ^ แอดดิสันฟิลลิป, มาร์คเดวิส (2008) "แท็กสำหรับระบุภาษา (ฉบับร่างเก่าสำหรับการแก้ไข RFC 4646 ตอนนี้ล้าสมัยและอาจหายไปในไม่ช้า)" . IETF WG LTRU สืบค้นเมื่อ2008-06-23 .
  10. ดั๊ก อีเวลล์ (2008) "อัปเดตเป็นภาษาแท็กย่อย Registry (ร่างเก่าสำหรับการแก้ไขของ RFC 4645 ตอนนี้ล้าสมัยและอาจจะหายไปเร็ว ๆ นี้)" (1MB) IETF WG LTRU สืบค้นเมื่อ2008-06-23 .
  11. ^ "รายการรหัสภาษา ISO 639-2 - รหัสสำหรับการแทนชื่อภาษา (Library of Congress)" . loc.gov สืบค้นเมื่อ28 กรกฎาคม 2558 .

ลิงค์ภายนอก

  • แท็กภาษา BCP 47 – ข้อกำหนดปัจจุบัน (ประกอบด้วย RFC สองรายการ RFC 5646 และ RFC 4647 ที่เผยแพร่แยกกันในวันที่ต่างกัน แต่ต่อกันเป็นเอกสารเดียว)
    • (รวมถึงการอ้างอิง RFC 5645 ข้อมูลที่เกี่ยวข้อง ซึ่งเสริม RFC 4645 ที่เป็นข้อมูลก่อนหน้านี้ ตลอดจนแบบฟอร์มการลงทะเบียนส่วนบุคคลอื่นๆ ที่เผยแพร่แยกต่างหากโดยผู้อื่นสำหรับแต่ละภาษาที่เพิ่มหรือแก้ไขในรีจิสทรีระหว่างการแก้ไข BCP 47 เหล่านี้)
  • ภาษา Subtag Registry – ดูแลโดย IANA
  • Language Subtag Registry Search – ค้นหาแท็กย่อยและดูรายการใน Registry
  • แท็กภาษาใน HTML และ XML – จาก W3C
  • แท็กภาษา – จากกลุ่มงาน IETF Language Tag Registry Update