ภาษาศาสตร์คอร์ปัส

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

ภาษาศาสตร์ของคอร์ปัสคือการศึกษาภาษาหนึ่งๆตามที่ภาษานั้นแสดงอยู่ในข้อความ คลังข้อมูล ( corpora แบบ พหูพจน์) เนื้อความของข้อความใน "โลกแห่งความเป็นจริง" Corpus linguistics เสนอว่าการวิเคราะห์ภาษาที่เชื่อถือได้มีความเป็นไปได้มากกว่าด้วย corpora ที่รวบรวมในภาคสนาม—บริบททางธรรมชาติ ("ความจริง") ของภาษานั้น—โดยมีการรบกวนจากการทดลองเพียงเล็กน้อย

วิธี text-corpus ใช้เนื้อความของข้อความที่เขียนในภาษาธรรมชาติใดๆ เพื่อให้ได้ชุดของกฎนามธรรมที่ควบคุมภาษานั้น ผลลัพธ์เหล่านี้สามารถใช้เพื่อสำรวจความสัมพันธ์ระหว่างภาษาของวิชานั้นกับภาษาอื่นที่ได้รับการวิเคราะห์ที่คล้ายคลึงกัน ร่างแรกดังกล่าวได้มาจากข้อความต้นฉบับด้วยตนเอง แต่ตอนนี้การทำงานนั้นเป็นไปโดยอัตโนมัติ

Corpora ไม่เพียงแต่ถูกใช้เพื่อการวิจัยทางภาษาศาสตร์เท่านั้น แต่ยังใช้เพื่อรวบรวมพจนานุกรม (เริ่มต้นด้วยThe American Heritage Dictionary of the English Languageในปี 1969) และคู่มือไวยากรณ์ เช่นA Comprehensive Grammar of the English Languageซึ่งตีพิมพ์ในปี 1985

ผู้เชี่ยวชาญในสาขานี้มีมุมมองที่แตกต่างกันเกี่ยวกับคำอธิบายประกอบของคลังข้อมูล มุมมองเหล่านี้มีตั้งแต่John McHardy Sinclairผู้ให้การสนับสนุนคำอธิบายประกอบเพียงเล็กน้อยเพื่อให้ตัวหนังสือพูดได้เอง[1]กับทีมSurvey of English Usage ( University College , London) ซึ่งสนับสนุนคำอธิบายประกอบเพื่อให้เข้าใจภาษาศาสตร์มากขึ้นผ่านการบันทึกที่เข้มงวด [2]

ประวัติ

ความพยายามที่เก่าแก่ที่สุดบางส่วนในการบรรยายทางไวยากรณ์อย่างน้อยก็ส่วนหนึ่งมาจากร่างกายที่มีความสำคัญทางศาสนาหรือวัฒนธรรมโดยเฉพาะ ตัวอย่างเช่นวรรณคดีปราติซาคยาบรรยายรูปแบบเสียงของสันสกฤตตามที่พบในพระเวทและ ไวยากรณ์ภาษาสันสกฤตคลาสสิกของปาณินีอย่างน้อยก็ส่วนหนึ่งในการวิเคราะห์คลังข้อมูลเดียวกันนั้น ในทำนองเดียวกันนักไวยากรณ์ภาษาอาหรับ ในยุคแรกๆ ให้ความสนใจเป็นพิเศษกับภาษาของอัลกุรอาน ตามธรรมเนียมของยุโรปตะวันตก นักวิชาการได้เตรียม การ ยินยอมเพื่อให้ศึกษารายละเอียดเกี่ยวกับภาษาของพระคัมภีร์ไบเบิลและข้อความบัญญัติอื่นๆ ได้อย่างละเอียด

วิชาภาษาอังกฤษ

จุดสังเกตในภาษาศาสตร์คอร์ปัสสมัยใหม่คือการตีพิมพ์Computational Analysis of Present-Day American Englishในปี 1967 เขียนโดยHenry KučeraและW. Nelson Francisงานนี้อิงจากการวิเคราะห์ของBrown Corpusซึ่งเป็นการรวบรวมร่วมสมัยเกี่ยวกับ คำศัพท์ภาษาอังกฤษแบบอเมริกันนับล้านที่คัดสรรมาอย่างดีจากแหล่งข้อมูลที่หลากหลาย [3] Kučera และฟรานซิสนำ Brown Corpus ไปใช้ในการวิเคราะห์เชิงคำนวณที่หลากหลาย จากนั้นจึงรวมองค์ประกอบของภาษาศาสตร์ การสอนภาษาจิตวิทยาสถิติ และสังคมวิทยาเข้าด้วยกันเพื่อสร้างบทประพันธ์ที่หลากหลายและหลากหลาย สิ่งพิมพ์สำคัญเพิ่มเติมคือRandolph Quirkของ "Towards a description of English Usage" ในปี 1960 [4]ซึ่งเขาแนะนำการสำรวจการใช้ภาษาอังกฤษ

หลังจากนั้นไม่นานHoughton-Mifflin ผู้จัดพิมพ์ในบอสตันได้ ติดต่อKučeraเพื่อจัดหาฐานข้อมูลอ้างอิงสามบรรทัดล้านคำสำหรับAmerican Heritage Dictionary ซึ่งเป็น พจนานุกรมเล่มแรกที่รวบรวมโดยใช้ภาษาศาสตร์คลังข้อมูล AHD ได้ใช้ ขั้นตอนที่เป็นนวัตกรรมใหม่ในการรวมองค์ประกอบที่กำหนด ( ควรใช้ภาษาอย่างไร) กับข้อมูลเชิงพรรณนา (วิธีการใช้ งานจริง )

ผู้เผยแพร่รายอื่นปฏิบัติตาม พจนานุกรม สำหรับผู้เรียนภาษาเดียว ของคอลลินส์COBUILD ของคอลลินส์ ได้รับการออกแบบสำหรับผู้ใช้ที่เรียนภาษาอังกฤษเป็นภาษาต่างประเทศรวบรวมโดยใช้ธนาคารแห่งภาษาอังกฤษ Survey of English Usage Corpus ใช้ในการพัฒนาหนึ่งในไวยากรณ์ที่สำคัญที่สุดของ Corpus ซึ่งเขียนโดย Quirk et al และตีพิมพ์ใน ปี1985 เป็นA Comprehensive Grammar of the English Language [5]

The Brown Corpusได้สร้าง corpora ที่มีโครงสร้างคล้ายกันจำนวนหนึ่ง: the LOB Corpus (1960s British English ), Kolhapur ( Indian English ), Wellington ( New Zealand English ), Australian Corpus of English ( Australian English ), the Frown Corpus (ต้นทศวรรษ 1990) ภาษาอังกฤษแบบอเมริกัน ) และ FLOB Corpus (ยุค 1990 ภาษาอังกฤษแบบอังกฤษ) corpora อื่น ๆ เป็นตัวแทนของภาษา ความหลากหลายและรูปแบบต่างๆ และรวมถึงInternational Corpus of EnglishและBritish National Corpus คอลเลกชันคำศัพท์จำนวน 100 ล้านคำของข้อความพูดและเขียนที่สร้างขึ้นในปี 1990 โดยกลุ่มผู้จัดพิมพ์ มหาวิทยาลัย (อ็อกซ์ฟอร์ดและแลงคาสเตอร์ ) และหอสมุดแห่งชาติอังกฤษ สำหรับภาษาอังกฤษแบบอเมริกันร่วมสมัย งานหยุดชะงักในAmerican National Corpusแต่คำศัพท์กว่า 400 ล้านคำของภาษาอังกฤษแบบอเมริกันร่วมสมัย (พ.ศ. 2533-2533) มีให้บริการผ่านอินเทอร์เฟซทางเว็บ

คลังข้อมูลภาษาพูดที่ถอดความด้วยคอมพิวเตอร์ชุดแรกสร้างขึ้นในปี 1971 โดยโครงการมอนทรีออลภาษาฝรั่งเศส[6]มีคำศัพท์หนึ่งล้านคำ ซึ่งเป็นแรงบันดาลใจให้ คลังเสียงพูดภาษาฝรั่งเศสของ Shana Poplackมีขนาดใหญ่กว่ามากในพื้นที่ออตตาวา-ฮัลล์ [7]

องค์กรหลายภาษา

ในปี 1990 ความสำเร็จในช่วงแรกๆ ที่โดดเด่นหลายอย่างของวิธีการทางสถิติในการเขียนโปรแกรมภาษาธรรมชาติ (NLP) เกิดขึ้นในด้านการแปลด้วยเครื่องโดยเฉพาะอย่างยิ่งในการทำงานที่ IBM Research ระบบเหล่านี้สามารถใช้ประโยชน์จากโครงสร้างข้อความ หลายภาษา ที่มีอยู่ซึ่งจัดทำขึ้นโดยรัฐสภาแคนาดาและสหภาพยุโรปอันเป็นผลมาจากกฎหมายที่เรียกร้องให้มีการแปลกระบวนงานของรัฐบาลทั้งหมดเป็นภาษาราชการทั้งหมดของระบบที่เกี่ยวข้องกันของรัฐบาล

มี corpora ในภาษาที่ไม่ใช่ยุโรปเช่นกัน ตัวอย่างเช่น สถาบันแห่งชาติสำหรับภาษาญี่ปุ่นและภาษาศาสตร์ในญี่ปุ่นได้สร้างกลุ่มภาษาพูดและเขียนภาษาญี่ปุ่นจำนวนมาก

กลุ่มภาษาโบราณ

นอกจากกลุ่มภาษาที่มีชีวิตเหล่านี้แล้ว ระบบคอมพิวเตอร์ยังประกอบด้วยคอลเลกชันของข้อความในภาษาโบราณอีกด้วย ตัวอย่างคือ ฐานข้อมูล Andersen -Forbes ของฮีบรูไบเบิล ที่พัฒนาขึ้นตั้งแต่ทศวรรษ 1970 ซึ่งทุกประโยคจะถูกแยกวิเคราะห์โดยใช้กราฟที่แสดงไวยากรณ์ได้ถึงเจ็ดระดับ และทุกเซกเมนต์ที่ติดแท็กด้วยเขตข้อมูลเจ็ดช่อง [8] [9] Quranic Arabic Corpusเป็นคลังข้อมูลที่มีคำอธิบายประกอบสำหรับภาษาอาหรับคลาสสิกของ คัมภีร์กุ อาน นี่เป็นโปรเจ็กต์ล่าสุดที่มีคำอธิบายประกอบหลายชั้น รวมถึงการแบ่งส่วนทางสัณฐานวิทยา การติดแท็กบางส่วนของคำพูดและการวิเคราะห์เชิงวากยสัมพันธ์โดยใช้ไวยากรณ์การขึ้นต่อกัน [10]

Corpora จากฟิลด์เฉพาะ

นอกเหนือจากการไต่สวนทางภาษาศาสตร์ล้วนๆ นักวิจัยได้เริ่มใช้ภาษาศาสตร์ของคลังข้อมูลกับสาขาวิชาการและวิชาชีพอื่นๆ เช่น สาขาย่อยของกฎหมายและภาษาศาสตร์ของคลังข้อมูล ซึ่งพยายามทำความเข้าใจข้อความทางกฎหมายโดยใช้ข้อมูลและเครื่องมือของคลังข้อมูล

วิธีการ

ภาษาศาสตร์ของคอร์ปัสได้สร้างวิธีการวิจัยขึ้นมาจำนวนหนึ่ง ซึ่งพยายามติดตามเส้นทางจากข้อมูลสู่ทฤษฎี Wallis and Nelson (2001) [11]ได้แนะนำสิ่งที่พวกเขาเรียกว่ามุมมอง 3A เป็นครั้งแรก: คำอธิบายประกอบ นามธรรม และการวิเคราะห์

  • คำอธิบายประกอบประกอบด้วยการประยุกต์ใช้โครงร่างกับข้อความ คำอธิบายประกอบอาจรวมถึงการมาร์กอัปโครงสร้าง การ ติดแท็กบางส่วนของคำพูด การแยกวิเคราะห์และการนำเสนออื่นๆ อีกมากมาย
  • สิ่งที่เป็น นามธรรมประกอบด้วยการแปล (การทำแผนที่) ของคำศัพท์ในโครงการเป็นข้อกำหนดในรูปแบบหรือชุดข้อมูลที่มีแรงจูงใจทางทฤษฎี สิ่งที่เป็นนามธรรมมักจะรวมถึงการค้นหาโดยนักภาษาศาสตร์โดยตรง แต่อาจรวมถึงเช่น การเรียนรู้กฎสำหรับผู้แยกวิเคราะห์
  • การ วิเคราะห์ประกอบด้วยการตรวจสอบ การจัดการ และการทำให้เป็นภาพรวมทางสถิติจากชุดข้อมูล การวิเคราะห์อาจรวมถึงการประเมินทางสถิติ การปรับให้เหมาะสมของกฎพื้นฐานหรือวิธีการค้นพบความรู้

คำศัพท์ส่วนใหญ่ในปัจจุบันเป็นส่วนหนึ่งของคำพูดติดแท็ก (แท็ก POS) อย่างไรก็ตาม แม้แต่นักภาษาศาสตร์คลังข้อมูลที่ทำงานกับ 'ข้อความธรรมดาที่ไม่มีคำอธิบายประกอบ' ย่อมใช้วิธีบางอย่างเพื่อแยกคำเด่นออกอย่างหลีกเลี่ยงไม่ได้ ในสถานการณ์เช่นนี้ การรวมคำอธิบายประกอบและนามธรรมเข้าด้วยกันในการค้นหาคำศัพท์

ข้อดีของการเผยแพร่คลังข้อมูลที่มีคำอธิบายประกอบคือผู้ใช้รายอื่นสามารถทำการทดลองกับคลังข้อมูลได้ (ผ่าน ตัวจัด การคลังข้อมูล ) นักภาษาศาสตร์ที่มีความสนใจด้านอื่นและมีมุมมองที่แตกต่างไปจากที่ผู้ริเริ่มสามารถใช้ประโยชน์จากงานนี้ได้ นักภาษาศาสตร์ของคลังข้อมูลสามารถปฏิบัติต่อคลังข้อมูลเสมือนเป็นสถานที่แห่งการอภิปรายทางภาษาศาสตร์และศึกษาเพิ่มเติมด้วยการแบ่งปันข้อมูล (12)

ดูเพิ่มเติม

หมายเหตุและการอ้างอิง

  1. Sinclair, J. 'The automatic analysis of corpora' ใน Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82 ) เบอร์ลิน: Mouton de Gruyter 1992.
  2. Wallis, S. 'Annotation, Retrieval and Experimentation', ใน Meurman-Solin, A. & Nurmi, AA (ed.) Annotating Variation and Change. เฮลซิงกิ: Varieng, [มหาวิทยาลัยเฮลซิงกิ]. 2550. e-Published
  3. ^ ฟรานซิส ดับเบิลยู. เนลสัน; คูเชรา, อองรี (1 มิถุนายน ค.ศ. 1967) การวิเคราะห์เชิงคำนวณของภาษาอังกฤษแบบอเมริกันในปัจจุบัน พรอวิเดนซ์: สำนักพิมพ์มหาวิทยาลัยบราวน์. ISBN 978-0870571053.
  4. ควิก แรนดอล์ฟ (พฤศจิกายน 1960) "สู่คำอธิบายการใช้ภาษาอังกฤษ". ธุรกรรมของสมาคมภาษาศาสตร์ . 59 (1): 40–61. ดอย : 10.1111/j.1467-968X.1960.tb00308.x .
  5. ควิก แรนดอล์ฟ; กรีนบอม, ซิดนีย์; ปลิง เจฟฟรีย์; Svartvik, ม.ค. (1985) ไวยากรณ์ที่ครอบคลุมของภาษาอังกฤษ ลอนดอน: ลองแมน. ISBN 978-0582517349.
  6. ซันคอฟฟ์ เดวิด; ซังคอฟฟ์, กิลเลียน (1973). Darnell, R. (เอ็ด) "ตัวอย่างวิธีการสำรวจและการวิเคราะห์โดยใช้คอมพิวเตอร์ช่วยในการศึกษาความแปรผันทางไวยากรณ์". ภาษาแคนาดาในบริบททางสังคมของพวกเขา เอดมันตัน: Linguistic Research Incorporated: 7–63
  7. ป็อปแล็ก, ชานา (1989). Fasold, R.; Schiffrin, D. (สหพันธ์). "การดูแลและจัดการเมกะคอร์ปัส". การเปลี่ยนแปลงและการเปลี่ยนแปลงภาษา ประเด็นปัจจุบันในทฤษฎีภาษาศาสตร์ อัมสเตอร์ดัม: เบนจามินส์. 52 : 411–451. ดอย : 10.1075/cilt.52.25pop . ISBN 978-90-272-3546-6.
  8. แอนเดอร์เซ็น ฟรานซิสที่ 1; Forbes, A. Dean (2003), "Hebrew Grammar Visualized: I. Syntax", Ancient Near Eastern Studies , เล่ม 40 หน้า 43–61 [45]
  9. ↑ Eyland , E. Ann (1987), "Revelations from Word Counts" ใน Newing, Edward G.; Conrad, Edgar W. (eds.), Perspectives on Language and Text: Essays and Poems in Honor of Francis I. Andersen's Sixtieth Birthday, 28 กรกฎาคม 1985 , Winona Lake, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
  10. Dukes, K., Atwell, E. and Habash, N. 'Supervised Collaboration for Syntactic Annotation of Quranic Arabic'. วารสารทรัพยากรภาษาและการประเมินผล 2554.
  11. วาลลิส เอส. และเนลสัน จี.ร่างกายที่วิเคราะห์ตามหลักไวยากรณ์ การขุดข้อมูลและการค้นพบความรู้ , 5 : 307–340. 2544.
  12. ^ เบเกอร์ พอล; เอ็กเบิร์ต, เจสซี่, สหพันธ์. (2016). Triangulating Methodological Approaches ใน การวิจัย Corpus-Linguistic นิวยอร์ก: เลดจ์.

อ่านเพิ่มเติม

หนังสือ

  • Biber, D., Conrad, S., Reppen R. Corpus Linguistics, การสืบสวนโครงสร้างและการใช้ภาษา , Cambridge: Cambridge UP, 1998. ISBN 0-521-49957-7 
  • McCarthy, D. และ Sampson G. Corpus Linguistics: Readings in a Widening Discipline , Continuum, 2005. ISBN 0-8264-8803-X 
  • Facchinetti, R. คำอธิบายเชิงทฤษฎีและการประยุกต์ใช้ในทางปฏิบัติของ Linguistic Corpora . เวโรนา: QuiEdit, 2007 ISBN 978-88-89480-37-3 
  • Facchinetti, R. (ed.) Corpus Linguistics 25 ปีที่ผ่านมา . นิวยอร์ก/อัมสเตอร์ดัม: Rodopi, 2007 ISBN 978-90-420-2195-2 
  • Facchinetti, R. และ Rissanen M. (eds.) การศึกษาเกี่ยวกับ Diachronic English ที่ใช้ Corpus เบิร์น: Peter Lang, 2006 ISBN 3-03910-851-4 
  • Lenders, W. Computational lexicography and corpus linguistics จนถึง ค.ศ. 1970/1980ใน: Gouws, RH, Heid, U., Schweickard, W. , Wiegand, HE (eds.) Dictionaries – An International Encyclopedia of Lexicography. เล่มเสริม: การพัฒนาล่าสุดโดยเน้นที่พจนานุกรมศัพท์อิเล็กทรอนิกส์และคอมพิวเตอร์ เบอร์ลิน: De Gruyter Mouton, 2013 ISBN 978-3112146651 
  • Fuß, Eric และคณะ (บรรณาธิการ): Grammar and Corpora 2016 , Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885/heiup.361.509 ( digital open access ).
  • Stefanowitsch A. 2020. ภาษาศาสตร์ของ Corpus: คู่มือวิธีการ . เบอร์ลิน: สำนักพิมพ์วิทยาศาสตร์ภาษา. ISBN 978-3-96110-225-9 ดอย : 10.5281 / zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148 

หนังสือชุด

ชุดหนังสือในสาขานี้รวมถึง:

วารสาร

มีวารสารนานาชาติที่ผ่านการตรวจสอบโดยเพื่อนหลายฉบับที่อุทิศให้กับภาษาศาสตร์ของคลังข้อมูล ตัวอย่างเช่น:

ลิงค์ภายนอก