การติดแท็กบางส่วนของคำพูด

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

ในภาษาศาสตร์ของคลังข้อมูล การติดแท็ กส่วนหนึ่งของคำพูด ( การ ติดแท็ก POSหรือ การ ติดแท็ก PoSหรือPOST ) หรือที่เรียกว่า การ ติดแท็กทางไวยากรณ์เป็นกระบวนการของการทำเครื่องหมายคำในข้อความ (คลังข้อมูล) ที่สอดคล้องกับส่วนใด ส่วนหนึ่งของ คำพูด[1]ตามคำจำกัดความและบริบทของ มัน รูปแบบที่เรียบง่ายนี้มักจะสอนให้เด็กวัยเรียนในการระบุคำที่เป็นคำ นามกริยา , คุณศัพท์ , กริยาวิเศษณ์ฯลฯ

เมื่อดำเนินการด้วยมือแล้ว ขณะนี้การติดแท็ก POS เสร็จสิ้นในบริบทของภาษาศาสตร์เชิงคำนวณโดยใช้อัลกอริธึมที่เชื่อมโยงคำศัพท์ที่ไม่ต่อเนื่องกัน รวมถึงส่วนต่างๆ ของคำพูดที่ซ่อนอยู่ด้วยชุดแท็กอธิบาย อัลกอริทึมการติดแท็ก POS แบ่งออกเป็นสองกลุ่มที่แตกต่างกัน: อิงตามกฎและสุ่ม เครื่อง แท็กของ E. Brillซึ่งเป็นหนึ่งในเครื่องติดแท็ก POS ภาษาอังกฤษตัวแรกและใช้กันอย่างแพร่หลายมากที่สุด ใช้อัลกอริธึมตามกฎ

หลักการ

การติดแท็กบางส่วนของคำพูดนั้นยากกว่าการมีรายการคำและส่วนของคำพูด เนื่องจากคำบางคำสามารถแทนคำพูดได้มากกว่าหนึ่งส่วนในเวลาที่ต่างกัน และเนื่องจากคำพูดบางส่วนมีความซับซ้อนหรือไม่ได้พูด ไม่ใช่เรื่องยาก ในภาษาธรรมชาติ (เมื่อเทียบกับภาษาเทียมหลายๆ ภาษา ) รูปแบบคำส่วนใหญ่มีความคลุมเครือ ตัวอย่างเช่น แม้แต่ "dogs" ซึ่งปกติคิดว่าเป็นเพียงคำนามพหูพจน์ ก็สามารถเป็นคำกริยาได้เช่นกัน:

กะลาสีสุนัขฟักไข่

การติดแท็กตามหลักไวยากรณ์ที่ถูกต้องจะสะท้อนให้เห็นว่า "dogs" ถูกใช้เป็นคำกริยา ไม่ใช่คำนามพหูพจน์ทั่วไป บริบททางไวยากรณ์เป็นวิธีหนึ่งในการพิจารณาเรื่องนี้ การวิเคราะห์เชิงความหมายยังสามารถใช้เพื่ออนุมานว่า "กะลาสี" และ "ฟัก" เกี่ยวข้องกับ "สุนัข" เป็น 1) ในบริบททางทะเล และ 2) การกระทำที่ใช้กับวัตถุ "ฟัก" (ในบริบทนี้ "สุนัข" เป็นสัตว์ทะเลคำว่า "ยึด (ประตูกันน้ำ) อย่างปลอดภัย")

ชุดแท็ก

โรงเรียนมักสอน ว่าการ พูด ในภาษาอังกฤษมี9 ส่วนได้แก่คำนามกริยาบทความคำคุณศัพท์บุพบทสรรพนามวิเศษณ์คำสันธานและคำอุทาน อย่างไรก็ตาม มีหมวดหมู่และหมวดหมู่ย่อยอีกมากมายอย่างชัดเจน สำหรับคำนาม รูปพหูพจน์ ความเป็นเจ้าของ และเอกพจน์ สามารถแยกความแตกต่างได้ ในหลายภาษา คำต่างๆ จะถูกทำเครื่องหมายสำหรับ " case " (บทบาทเป็นประธาน วัตถุ ฯลฯ) เพศตามหลักไวยากรณ์และอื่นๆ ในหลายภาษา ในขณะที่กริยาถูกทำเครื่องหมายสำหรับความตึงเครียด , ด้าน, และสิ่งอื่น ๆ. ในระบบการแท็กบางระบบ การผันคำรากศัพท์ที่ต่างกันจะได้รับส่วนต่างๆ ของคำพูดที่แตกต่างกัน ส่งผลให้มีแท็กจำนวนมาก ตัวอย่างเช่น NN สำหรับคำนามเอกพจน์ทั่วไป NNS สำหรับคำนามพหูพจน์ทั่วไป NP สำหรับคำนามเฉพาะที่เป็นเอกพจน์ (ดูแท็ก POS ที่ ใช้ใน Brown Corpus) ระบบการติดแท็กอื่นๆ ใช้แท็กจำนวนน้อยกว่า และละเว้นความแตกต่างเล็กๆ น้อยๆ หรือสร้างแบบจำลองของแท็กเหล่านั้น เนื่องจากคุณลักษณะค่อนข้างเป็นอิสระจากส่วนของคำพูด [2]

ในการแท็กส่วนของคำพูดโดยใช้คอมพิวเตอร์ เป็นเรื่องปกติที่จะแยกความแตกต่างระหว่างคำพูด 50 ถึง 150 ส่วนสำหรับภาษาอังกฤษ ใช้วิธี สุ่มสำหรับการแท็กKoine Greek (DeRose 1990) ใช้คำพูดมากกว่า 1,000 ส่วนและพบว่ามีคำที่คลุมเครือในภาษานั้นเช่นเดียวกับในภาษาอังกฤษ morphosyntactic descriptor ในกรณีของภาษาที่มีรูปแบบทางสัณฐานวิทยาโดยทั่วไปจะแสดงโดยใช้ตัวช่วยที่สั้นมาก เช่นNcmsanสำหรับ Category=Noun, Type = common, เพศ = ผู้ชาย, Number = เอกพจน์, Case = กล่าวหา, Animate = no

"ชุดแท็ก" ที่ได้รับความนิยมมากที่สุดสำหรับการติดแท็ก POS สำหรับภาษาอังกฤษแบบอเมริกันน่าจะเป็นชุดแท็กของ Penn ที่พัฒนาขึ้นในโครงการ Penn Treebank ส่วนใหญ่จะคล้ายกับชุดแท็ก Brown Corpus และ LOB Corpus รุ่นก่อนหน้า แม้ว่าจะเล็กกว่ามาก ในยุโรป ชุดแท็กจากEagles Guidelinesมีการใช้งานอย่างกว้างขวางและมีเวอร์ชันสำหรับหลายภาษา

งานการติดแท็ก POS ได้รับการดำเนินการในหลายภาษา และชุดของแท็ก POS ที่ใช้จะแตกต่างกันไปตามภาษาอย่างมาก แท็กมักจะได้รับการออกแบบให้มีความแตกต่างทางสัณฐานวิทยาที่ชัดเจน แม้ว่าจะนำไปสู่ความไม่สอดคล้องกัน เช่น การทำเครื่องหมายตัวพิมพ์ของคำสรรพนาม แต่ไม่ใช่คำนามในภาษาอังกฤษ และความแตกต่างระหว่างภาษาที่ใหญ่กว่ามาก ชุดแท็กสำหรับภาษาที่มีการแปรผันอย่างหนัก เช่นกรีกและละตินอาจมีขนาดใหญ่มาก การ ติดแท็กคำในภาษา ที่รวมกัน เช่นภาษาเอสกิโมอาจแทบเป็นไปไม่ได้ ในอีกทางหนึ่ง Petrov และคณะ [3]ได้เสนอชุดแท็ก "สากล" โดยมี 12 หมวดหมู่ (เช่น ไม่มีประเภทย่อยของคำนาม กริยา เครื่องหมายวรรคตอน และอื่นๆ) ไม่ว่าชุดแท็กกว้างๆ ชุดเล็กหรือชุดแท็กที่แม่นยำกว่าชุดเล็กจะเป็นการดีกว่า ขึ้นอยู่กับจุดประสงค์ การติดแท็กอัตโนมัติทำได้ง่ายกว่าในชุดแท็กที่เล็กกว่า

ประวัติ

คอร์ปัสสีน้ำตาล

การวิจัยเกี่ยวกับการติดแท็กบางส่วนของคำพูดมีความเกี่ยวข้องอย่างใกล้ชิดกับภาษาศาสตร์ของ คลังข้อมูล คลังข้อมูลภาษาอังกฤษที่สำคัญกลุ่มแรกสำหรับการวิเคราะห์ด้วยคอมพิวเตอร์คือBrown Corpusที่พัฒนา โดย มหาวิทยาลัย BrownโดยHenry KučeraและW. Nelson Francisในช่วงกลางทศวรรษ 1960 ประกอบด้วยข้อความร้อยแก้วภาษาอังกฤษประมาณ 1,000,000 คำ ซึ่งประกอบด้วยตัวอย่าง 500 ตัวอย่างจากสิ่งพิมพ์ที่สุ่มเลือก ตัวอย่างแต่ละตัวอย่างมี 2,000 คำขึ้นไป (สิ้นสุดที่ประโยคแรก - สิ้นสุดประโยคแรกหลังจาก 2,000 คำ เพื่อให้คลังข้อมูลมีเพียงประโยคที่สมบูรณ์)

Brown Corpus ได้รับ การ"ติดแท็ก" อย่างระมัดระวังด้วยเครื่องหมายคำพูดบางส่วนในช่วงหลายปีที่ผ่านมา การประมาณครั้งแรกเสร็จสิ้นด้วยโปรแกรมของ Greene และ Rubin ซึ่งประกอบด้วยรายการทำมือจำนวนมากว่าหมวดหมู่ใดบ้างที่สามารถเกิดขึ้นได้ทั้งหมด ตัวอย่างเช่น Article then noun สามารถเกิดขึ้นได้ แต่ article then verb (arguably) ไม่สามารถทำได้ โปรแกรมถูกต้องประมาณ 70% ผลลัพธ์ของมันถูกตรวจสอบและแก้ไขด้วยมือซ้ำแล้วซ้ำเล่า และต่อมาผู้ใช้ก็ส่ง errata เพื่อที่ว่าในช่วงปลายยุค 70 การติดแท็กนั้นเกือบจะสมบูรณ์แบบ

คลังข้อมูลนี้ใช้สำหรับการศึกษาความถี่คำและบางส่วนของคำพูดนับไม่ถ้วน และเป็นแรงบันดาลใจให้พัฒนาร่างกายที่ "ถูกแท็ก" ที่คล้ายกันในภาษาอื่นๆ มากมาย สถิติที่ได้จากการวิเคราะห์นั้นเป็นพื้นฐานสำหรับระบบการติดแท็กคำพูดบางส่วนในภายหลัง เช่นCLAWS (ภาษาศาสตร์)และVOLSUNGA อย่างไรก็ตาม ถึงเวลานี้ (2005) มันถูกแทนที่โดย corpora ที่ใหญ่กว่า เช่น 100 ล้านคำBritish National Corpusแม้ว่าร่างกายที่ใหญ่กว่าจะไม่ค่อยได้รับการดูแลอย่างทั่วถึง

ในบางครั้ง การติดแท็กบางส่วนของคำพูดถือเป็นส่วนที่แยกออกไม่ได้ของการประมวลผลภาษาธรรมชาติเนื่องจากมีบางกรณีที่ไม่สามารถตัดสินใจส่วนที่ถูกต้องของคำพูดได้หากไม่เข้าใจความหมายหรือแม้แต่หลักการปฏิบัติของบริบท สิ่งนี้มีราคาแพงมาก โดยเฉพาะอย่างยิ่งเนื่องจากการวิเคราะห์ระดับที่สูงขึ้นนั้นยากกว่ามากเมื่อต้องพิจารณาความเป็นไปได้ของคำพูดหลายส่วนในแต่ละคำ

การใช้โมเดล Markov ที่ซ่อนอยู่

ในช่วงกลางทศวรรษ 1980 นักวิจัยในยุโรปเริ่มใช้แบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMMs) เพื่อแก้ความกำกวมบางส่วนของคำพูด เมื่อทำงานเพื่อติดแท็กLancaster-Oslo-Bergen Corpusของ British English HMMs เกี่ยวข้องกับการนับกรณี (เช่นจาก Brown Corpus) และสร้างตารางความน่าจะเป็นของลำดับที่แน่นอน ตัวอย่างเช่น เมื่อคุณเคยเห็นบทความเช่น 'the' คำต่อไปอาจเป็นคำนาม 40% คำคุณศัพท์ 40% และตัวเลข 20% เมื่อรู้สิ่งนี้ โปรแกรมสามารถตัดสินใจได้ว่า "can" ใน "the can" มีแนวโน้มที่จะเป็นคำนามมากกว่าคำกริยาหรือเป็นกิริยาช่วย วิธีการเดียวกันนี้สามารถนำมาใช้ให้เกิดประโยชน์จากความรู้เกี่ยวกับคำต่อไปนี้ได้

HMM ขั้นสูง ("ลำดับที่สูงกว่า") เรียนรู้ความน่าจะเป็น ไม่เพียงแต่ของคู่ แต่ลำดับสามหรือลำดับที่ใหญ่กว่า ตัวอย่างเช่น หากคุณเพิ่งเห็นคำนามที่ตามด้วยคำกริยา รายการถัดไปอาจเป็นคำบุพบท บทความ หรือคำนาม แต่มีแนวโน้มน้อยกว่ามากคือกริยาอื่น

เมื่อคำคลุมเครือหลายคำเกิดขึ้นพร้อมกัน ความเป็นไปได้ก็ทวีคูณ อย่างไรก็ตาม มันง่ายที่จะแจกแจงทุกชุดค่าผสมและกำหนดความน่าจะเป็นสัมพัทธ์ให้กับแต่ละชุด โดยการคูณความน่าจะเป็นของแต่ละตัวเลือกเข้าด้วยกัน จากนั้นจึงเลือกชุดค่าผสมที่มีความน่าจะเป็นสูงสุด กลุ่มยุโรปพัฒนา CLAWS ซึ่งเป็นโปรแกรมการติดแท็กที่ทำสิ่งนี้อย่างแม่นยำและได้รับความแม่นยำในช่วง 93–95%

เป็นสิ่งที่ควรค่าแก่การจดจำ ดังที่ยูจีน ชาเนียกชี้ให้เห็นในเทคนิคทางสถิติสำหรับการแยกวิเคราะห์ภาษาธรรมชาติ (1997) [4]ที่เพียงแค่กำหนดแท็กที่พบบ่อยที่สุดให้กับแต่ละคำที่รู้จักและแท็ก " คำนามที่เหมาะสม " ให้กับสิ่งที่ไม่รู้จักทั้งหมดก็จะเข้าใกล้ความแม่นยำ 90% เพราะคำหลายคำมีความชัดเจน และคำอื่นๆ อีกมากมักใช้แทนส่วนของคำพูดที่ไม่ธรรมดาเท่านั้น

CLAWS เป็นผู้บุกเบิกด้านการติดแท็กคำพูดโดยใช้ HMM แต่มีราคาค่อนข้างแพง เนื่องจากได้ระบุความเป็นไปได้ทั้งหมด บางครั้งต้องใช้วิธีการสำรองเมื่อมีตัวเลือกมากเกินไป (Brown Corpus มีกรณีที่มีคำคลุมเครือ 17 คำติดต่อกันและมีคำเช่น "นิ่ง" ที่สามารถแทนคำพูดได้มากถึง 7 ส่วน (DeRose 1990, p. 82)).

HMM รองรับการทำงานของ stochastic taggers และใช้ในอัลกอริธึมต่างๆ ซึ่งเป็นหนึ่งในอัลกอริธึมการอนุมานแบบสองทิศทางที่ใช้กันอย่างแพร่หลายมากที่สุด [5]

วิธีการเขียนโปรแกรมแบบไดนามิก

ในปี 1987 Steven DeRose [6]และKen Church [7]ได้พัฒนา อัลกอริธึม การเขียนโปรแกรมแบบไดนามิกเพื่อแก้ปัญหาเดียวกันโดยใช้เวลาน้อยกว่ามาก วิธีการของพวกเขาคล้ายกับอัลกอริธึม Viterbiที่รู้จักกันมาระยะหนึ่งในด้านอื่น DeRose ใช้ตารางคู่ ในขณะที่ Church ใช้ตาราง Triples และวิธีการประมาณค่าของ Triples ที่หายากหรือไม่มีอยู่ใน Brown Corpus (การวัดความน่าจะเป็นสามเท่าจริง ๆ จะต้องใช้คลังข้อมูลที่ใหญ่กว่ามาก) ทั้งสองวิธีมีความแม่นยำมากกว่า 95% วิทยานิพนธ์ 1990 ของ DeRose ที่มหาวิทยาลัยบราวน์รวมการวิเคราะห์ข้อผิดพลาดเฉพาะประเภท ความน่าจะเป็น และข้อมูลที่เกี่ยวข้องอื่นๆ และจำลองงานของเขาในภาษากรีก ซึ่งได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในทำนองเดียวกัน

การค้นพบนี้สร้างความแตกแยกอย่างน่าประหลาดใจในด้านการประมวลผลภาษาธรรมชาติ ความแม่นยำที่รายงานนั้นสูงกว่าความแม่นยำทั่วไปของอัลกอริธึมที่ซับซ้อนมาก ซึ่งรวมส่วนของตัวเลือกคำพูดเข้ากับการวิเคราะห์ทางภาษาในระดับที่สูงกว่า: วากยสัมพันธ์ สัณฐานวิทยา ความหมาย และอื่นๆ วิธีการของ CLAWS, DeRose และ Church ล้มเหลวสำหรับบางกรณีที่ทราบกันดีอยู่แล้วว่าต้องใช้ความหมาย แต่วิธีเหล่านั้นได้รับการพิสูจน์แล้วว่าหายากเล็กน้อย สิ่งนี้ทำให้หลายคนเชื่อว่าการติดแท็กบางส่วนของคำพูดสามารถแยกออกจากการประมวลผลระดับอื่น ๆ ได้อย่างมีประโยชน์ ในทางกลับกัน ทำให้ทฤษฎีและการปฏิบัติของการวิเคราะห์ภาษาด้วยคอมพิวเตอร์ง่ายขึ้น และสนับสนุนให้นักวิจัยหาวิธีแยกส่วนอื่นๆ ด้วย Markov Models เป็นวิธีการมาตรฐานสำหรับการกำหนดส่วนของคำพูด

ผู้แท็กที่ไม่ได้รับการดูแล

วิธีการที่กล่าวถึงแล้วเกี่ยวข้องกับการทำงานจากคลังข้อมูลที่มีอยู่แล้วเพื่อเรียนรู้ความน่าจะเป็นของแท็ก อย่างไรก็ตาม ยังเป็นไปได้ที่จะบูต สแตรป โดยใช้การติดแท็ก " ที่ไม่ได้รับการดูแล" เทคนิคการติดแท็กที่ไม่ได้รับการดูแลจะใช้คลังข้อมูลที่ไม่ได้ติดแท็กสำหรับข้อมูลการฝึกอบรม และสร้างชุดแท็กโดยการเหนี่ยวนำ กล่าวคือ พวกเขาสังเกตรูปแบบการใช้คำ และสร้างหมวดหมู่ส่วนหนึ่งของคำพูดด้วยตนเอง ตัวอย่างเช่น สถิติเปิดเผยได้อย่างง่ายดายว่า "the", "a" และ "an" เกิดขึ้นในบริบทที่คล้ายคลึงกัน ในขณะที่ "eat" เกิดขึ้นในบริบทที่แตกต่างกันมาก ด้วยการทำซ้ำที่เพียงพอ คลาสของคำที่คล้ายคลึงกันก็ปรากฏขึ้นซึ่งคล้ายกับที่นักภาษาศาสตร์มนุษย์คาดหวังไว้อย่างน่าทึ่ง และบางครั้งความแตกต่างก็ชี้ให้เห็นถึงข้อมูลเชิงลึกใหม่ๆ อันมีค่า

ทั้งสองประเภทสามารถแบ่งย่อยได้อีกเป็นแนวทางตามกฎเกณฑ์ สุ่ม และประสาท

แท็กเกอร์และวิธีการอื่นๆ

อัลกอริธึมหลักบางตัวในปัจจุบันสำหรับการแท็ก part-of-speech ได้แก่Viterbi Algorithm , Brill tagger , Constraint GrammarและBaum-Welch Algorithm (หรือที่เรียกว่า Forward-Backward Algorithm) โมเดล Markov ที่ซ่อนอยู่และ การแท็ก โมเดล Markov ที่มองเห็นได้สามารถนำมาใช้โดยใช้อัลกอริธึม Viterbi Brill tagger ที่อิงตามกฎนั้นผิดปกติเพราะเรียนรู้ชุดของรูปแบบกฎ จากนั้นจึงนำรูปแบบเหล่านั้นไปใช้แทนการปรับปริมาณทางสถิติให้เหมาะสม ไม่เหมือนกับ Brill tagger ที่กฎถูกเรียงลำดับตามลำดับ POS และชุดเครื่องมือการติดแท็กทางสัณฐานวิทยาRDRPOSTagger จะจัดเก็บกฎในรูปแบบของ แผนผังกฎการ กระเพื่อม

วิธี การเรียนรู้ของเครื่องจำนวนมากยังถูกนำมาใช้กับปัญหาการติดแท็ก POS วิธีการต่างๆ เช่นSVMตัวแยกประเภทเอนโทรปีสูงสุด perceptron และเพื่อนบ้านที่ใกล้ที่สุดได้รับการลองใช้แล้ว และส่วนใหญ่สามารถบรรลุความแม่นยำที่สูงกว่า 95%

มีการรายงานการเปรียบเทียบโดยตรงของวิธีการต่างๆ (พร้อมข้อมูลอ้างอิง) ที่ ACL Wiki [8]การเปรียบเทียบนี้ใช้แท็ก Penn ที่ตั้งค่าไว้ในข้อมูล Penn Treebank บางส่วน ดังนั้นผลลัพธ์จึงเปรียบเทียบได้โดยตรง อย่างไรก็ตาม ไม่รวมผู้ติดแท็กที่สำคัญจำนวนมาก (อาจเป็นเพราะแรงงานที่เกี่ยวข้องในการกำหนดค่าใหม่สำหรับชุดข้อมูลนี้โดยเฉพาะ) ดังนั้นจึงไม่ควรสันนิษฐานว่าผลลัพธ์ที่รายงานที่นี่ดีที่สุดที่สามารถทำได้ด้วยวิธีการที่กำหนด หรือแม้แต่สิ่งที่ดีที่สุดที่ได้รับจากวิธีการที่กำหนด

ในปี 2014 เอกสารรายงานที่ใช้วิธีการทำให้เป็นมาตรฐานของโครงสร้างสำหรับการติดแท็กบางส่วนของคำพูด ซึ่งบรรลุ 97.36% ในชุดข้อมูลการเปรียบเทียบมาตรฐาน [9]

ปัญหา

แม้ว่าจะมีข้อตกลงกว้างๆ เกี่ยวกับหมวดหมู่พื้นฐาน แต่กรณีของ edge หลายกรณีทำให้ยากต่อการจัดการชุดแท็กที่ "ถูกต้อง" ชุดเดียว แม้แต่ในภาษาเฉพาะ เช่น (พูด) ภาษาอังกฤษ ตัวอย่างเช่น มันยากที่จะพูดว่า "ไฟ" เป็นคำคุณศัพท์หรือคำนามใน

รถดับเพลิงสีเขียวขนาดใหญ่

ตัวอย่างที่สำคัญประการที่สองคือ ความแตกต่างของ use/mentionเช่นเดียวกับในตัวอย่างต่อไปนี้ โดยที่ "blue" สามารถแทนที่ด้วยคำจาก POS ใดๆ (ชุดแท็ก Brown Corpus ต่อท้าย "-NC" ในกรณีดังกล่าว):

คำว่า "ฟ้า" มี 4 ตัวอักษร

คำในภาษาอื่นที่ไม่ใช่ข้อความ "หลัก" มักถูกแท็กว่าเป็น "ต่างประเทศ" ใน Brown Corpus แท็กนี้ (-FW) จะใช้นอกเหนือจากแท็กสำหรับบทบาทของคำต่างประเทศในบริบท ร่างบางอื่นเพียงแท็กกรณีเช่น "ต่างประเทศ" ซึ่งง่ายกว่าเล็กน้อย แต่มีประโยชน์น้อยกว่ามากสำหรับการวิเคราะห์วากยสัมพันธ์ในภายหลัง

มีหลายกรณีที่ประเภท POS และ "คำ" ไม่จับคู่หนึ่งต่อหนึ่ง ตัวอย่างเช่น:

เท่าที่
 ของเดวิด
 จะ
 อย่า
 ในทางกลับกัน
 ก่อนตัด
 ไม่ได้
 ก่อน-หลังมัธยมศึกษาตอนปลาย
 ดู (คำ) ขึ้น

ในตัวอย่างที่แล้ว "look" และ "up" รวมกันเพื่อทำหน้าที่เป็นหน่วยวาจาเดียวแม้ว่าจะมีคำอื่นที่อาจมาระหว่างกันก็ตาม ชุดแท็กบางชุด (เช่น เพนน์) แบ่งคำที่มียัติภังค์ การย่อ และการเป็นเจ้าของเป็นโทเค็นแยกจากกัน ดังนั้นจึงหลีกเลี่ยงบางปัญหาแต่ยังห่างไกลจากปัญหาดังกล่าวทั้งหมด

ชุดแท็กหลายชุดใช้สำหรับคำต่างๆ เช่น "เป็น" "มี" และ "ทำ" เป็นหมวดหมู่ตามสิทธิ์ของตนเอง (เช่นเดียวกับใน Brown Corpus) ในขณะที่ชุดแท็กบางชุดถือเป็นคำกริยาง่ายๆ (เช่น LOB Corpus และ เพนน์ทรีแบงค์). เนื่องจากคำเฉพาะเหล่านี้มีรูปแบบมากกว่ากริยาภาษาอังกฤษอื่นๆ ซึ่งเกิดขึ้นในบริบททางไวยากรณ์ที่ค่อนข้างชัดเจน ถือว่าคำเหล่านี้เป็น "กริยา" เท่านั้น หมายความว่าเครื่องแท็ก POS มีข้อมูลให้ดำเนินการน้อยกว่ามาก ตัวอย่างเช่น HMM-based tagger จะเรียนรู้เฉพาะความน่าจะเป็นโดยรวมของคำว่า "verbs" ที่เกิดขึ้นใกล้กับส่วนอื่น ๆ ของคำพูด แทนที่จะเรียนรู้ความน่าจะเป็นที่จะเกิดขึ้นร่วมกันอย่างชัดเจนสำหรับ "do", "have", "be" และกริยาอื่นๆ . คำภาษาอังกฤษเหล่านี้มีการแจกแจงที่แตกต่างกันมาก: ไม่สามารถแทนที่กริยาอื่น ๆ ลงในที่เดียวกันกับที่เกิดขึ้นได้ ด้วยแท็กที่แตกต่างกัน HMM มักจะสามารถคาดเดาแท็กที่ละเอียดกว่าที่ถูกต้อง แทนที่จะเนื้อหาเท่าๆ กันกับ "กริยา" ในช่องใดๆ

บางคนแย้งว่าประโยชน์นี้เป็นสิ่งที่น่าสงสัยเพราะโปรแกรมสามารถตรวจสอบการสะกดคำเท่านั้น: "กริยา" นี้เป็น "ทำ" เนื่องจากการสะกดคำ อย่างไรก็ตาม สิ่งนี้ล้มเหลวเนื่องจากการสะกดที่ผิดพลาด แม้ว่า HMM มักจะแท็กได้อย่างถูกต้องก็ตาม

ดูเพิ่มเติม

อ้างอิง

  1. ^ "แท็ก POS" . เครื่องยนต์ร่าง . คอมพิวเตอร์ศัพท์. 2018-03-27 . สืบค้นเมื่อ2018-04-06 .
  2. ^ แท็ก POS สากล
  3. เปตรอฟ, สลาฟ; Das, ดีปันจัน; แมคโดนัลด์, ไรอัน (11 เมษายน 2554). "ชุดแท็กส่วนของคำพูดที่เป็นสากล" arXiv : 1104.2086 [ cs.CL ].
  4. ยูจีน ชาเนียก
  5. ^ CLL POS-tagger
  6. DeRose, Steven J. 1988 "การแก้ความกำกวมหมวดหมู่ทางไวยากรณ์โดยการเพิ่มประสิทธิภาพทางสถิติ" ภาษาศาสตร์คอมพิวเตอร์ 14(1): 31–39. [1]
  7. คริสตจักรเคนเนธ วอร์ด (1988). "โปรแกรมชิ้นส่วนสุ่มและตัวแยกคำนามสำหรับข้อความที่ไม่จำกัด" . ANLC '88: การดำเนินการของการประชุมครั้งที่สองเกี่ยวกับการประมวลผลภาษาธรรมชาติประยุกต์ Association for Computational Linguistics Stroudsburg, PA : 136. doi : 10.3115/974235.974260 .
  8. ^ การติดแท็ก POS (ทันสมัย)
  9. ^ ซูซุน (2014). การปรับโครงสร้างให้เป็นมาตรฐานสำหรับการทำนายแบบมีโครงสร้าง ( PDF) ระบบประมวลผลข้อมูลประสาท (NIPS) น. 2402–2410 . สืบค้นเมื่อ2021-08-20 .
  • ชาร์เนียก, ยูจีน. 2540. " เทคนิคทางสถิติสำหรับการแยกวิเคราะห์ภาษาธรรมชาติ ". นิตยสาร AI 18(4):33–44.
  • ฮานส์ ฟาน ฮอลเตเรน, ยาคุบ ซาฟเรล, วอลเตอร์ เดเลอม็องส์ 2544. การปรับปรุงความแม่นยำใน NLP ผ่านการผสมผสานระบบการเรียนรู้ของเครื่อง ภาษาศาสตร์เชิงคำนวณ . 27(2): 199–229. ไฟล์ PDF
  • DeRose, Steven J. 1990. "วิธีการสุ่มสำหรับการแก้ปัญหาความคลุมเครือของหมวดหมู่ไวยากรณ์ในภาษาที่ผันแปรและไม่ผันแปร" ปริญญาเอก วิทยานิพนธ์. พรอวิเดนซ์, โรดไอแลนด์: ภาควิชาวิทยาศาสตร์ความรู้ความเข้าใจและภาษาศาสตร์มหาวิทยาลัยบราวน์ Electronic Edition มีจำหน่ายที่[2]
  • DQ Nguyen, DQ Nguyen, DD Pham และ SB Pham (2016) "แนวทางการเรียนรู้ที่ยึดตามการเปลี่ยนแปลงที่แข็งแกร่งโดยใช้กฎ Ripple Down สำหรับการแท็กส่วนของคำพูด" เอไอ คอมมิวนิเคชั่นส์ เล่ม 2 29 ไม่มี 3 หน้า 409-422 [.pdf ]