การวิเคราะห์การถดถอย

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา
เส้นถดถอยสำหรับ 50 จุดสุ่มในการแจกแจงแบบเกาส์รอบเส้น y=1.5x+2 (ไม่แสดง)

ในการสร้างแบบจำลองทางสถิติการวิเคราะห์การถดถอยเป็นชุดของกระบวนการทางสถิติสำหรับการประมาณค่าความสัมพันธ์ระหว่างตัวแปรตาม (มักเรียกว่าตัวแปร 'ผลลัพธ์' หรือ 'การตอบสนอง' หรือ 'ฉลาก' ในภาษาการเรียนรู้ของเครื่อง) และตัวแปรอิสระ หนึ่งตัวหรือมากกว่า ( มักเรียกว่า 'ตัวทำนาย', 'ตัวแปรร่วม', 'ตัวแปรอธิบาย' หรือ 'คุณลักษณะ') รูปแบบทั่วไปของการวิเคราะห์การถดถอยคือการถดถอยเชิงเส้นซึ่งเราจะพบเส้น (หรือชุดค่าผสมเชิงเส้น ที่ซับซ้อนกว่า ) ที่ใกล้เคียงกับข้อมูลมากที่สุดตามเกณฑ์ทางคณิตศาสตร์เฉพาะ ตัวอย่างเช่น วิธีกำลังสองน้อยที่สุดธรรมดาคำนวณเส้นเฉพาะ (หรือไฮเปอร์เพลน ) ที่ลดผลรวมของความแตกต่างกำลังสองระหว่างข้อมูลจริงและเส้นนั้น (หรือไฮเปอร์เพลน) ด้วยเหตุผลทางคณิตศาสตร์ที่เฉพาะเจาะจง (ดูการถดถอยเชิงเส้น ) สิ่งนี้ทำให้ผู้วิจัยสามารถประเมินความคาดหวังแบบมีเงื่อนไข (หรือ ค่าเฉลี่ย ของ ประชากร) ของตัวแปรตามเมื่อตัวแปรอิสระรับชุดค่าที่กำหนด รูปแบบการถดถอยที่พบได้น้อยใช้ขั้นตอนที่แตกต่างกันเล็กน้อยในการประมาณค่าพารามิเตอร์ตำแหน่ง ทางเลือก (เช่นการถดถอยเชิงปริมาณหรือการวิเคราะห์เงื่อนไขที่จำเป็น[1] ) หรือประมาณการความคาดหวังแบบมีเงื่อนไขในคอลเลกชันที่กว้างขึ้นของแบบจำลองที่ไม่ใช่เชิงเส้น (เช่นการถดถอยแบบไม่อิงพารามิเตอร์ )

การวิเคราะห์การถดถอยจะใช้สำหรับวัตถุประสงค์ที่แตกต่างกันสองประการเป็นหลัก

ประการแรก การวิเคราะห์การถดถอยถูกนำมาใช้อย่างแพร่หลายสำหรับการทำนายและการพยากรณ์ซึ่งการใช้งานมีความซ้ำซ้อนอย่างมากกับสาขา การเรียนรู้ ของ เครื่อง

ประการที่สอง ในบางสถานการณ์สามารถใช้การวิเคราะห์การถดถอยเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอิสระและตัวแปรตาม ที่สำคัญ การถดถอยด้วยตัวมันเองจะแสดงความสัมพันธ์ระหว่างตัวแปรตามและชุดของตัวแปรอิสระในชุดข้อมูลคงที่เท่านั้น ในการใช้การถดถอยสำหรับการทำนายหรืออนุมานความสัมพันธ์เชิงสาเหตุ ตามลำดับ นักวิจัยต้องให้เหตุผลอย่างรอบคอบว่าเหตุใดความสัมพันธ์ที่มีอยู่จึงมีอำนาจในการทำนายสำหรับบริบทใหม่ หรือเหตุใดความสัมพันธ์ระหว่างตัวแปรสองตัวจึงมีการตีความเชิงสาเหตุ สิ่งหลังมีความสำคัญอย่างยิ่งเมื่อนักวิจัยหวังว่าจะประเมินความสัมพันธ์เชิงสาเหตุโดยใช้ ข้อมูล เชิงสังเกต [2] [3]

ประวัติ

รูปแบบแรกสุดของการถดถอยคือวิธีการกำลังสองน้อยที่สุดซึ่งเผยแพร่โดยเลเจนเดรในปี ค.ศ. 1805 [4]และโดยเกาส์ในปี ค.ศ. 1809 [5]เลเจนเดรและเกาส์ต่างก็ใช้วิธีการนี้กับปัญหาในการหาค่าจากการสังเกตทางดาราศาสตร์ วงโคจรของวัตถุรอบดวงอาทิตย์ (ส่วนใหญ่เป็นดาวหาง แต่ต่อมาก็เป็นดาวเคราะห์รองที่ค้นพบใหม่ในขณะนั้นด้วย) เกาส์ตีพิมพ์การพัฒนาเพิ่มเติมของทฤษฎีกำลังสองน้อยที่สุดในปี ค.ศ. 1821, [6]รวมถึงเวอร์ชันของ ทฤษฎีบทเกา ส์ -มาร์คอฟ

คำว่า "การถดถอย" บัญญัติขึ้นโดยฟรานซิส กาลตันในศตวรรษที่ 19 เพื่ออธิบายปรากฏการณ์ทางชีววิทยา ปรากฏการณ์นี้คือความสูงของลูกหลานของบรรพบุรุษที่สูงมักจะถดถอยลงสู่ค่าเฉลี่ยปกติ (ปรากฏการณ์ที่เรียกว่าการถดถอยเข้าหาค่าเฉลี่ย ) [7] [8] สำหรับ Galton การถดถอยมีความหมายทางชีววิทยาเพียงอย่างเดียว[9] [10]แต่ต่อมางานของเขาถูกขยายโดยUdny YuleและKarl Pearsonไปสู่บริบททางสถิติทั่วไปมากขึ้น [11] [12]ในงานของ Yule และ Pearson การแจกแจงร่วมกันของตัวแปรตอบสนองและตัวแปรอธิบายจะถือว่าเป็นGaussian. ข้อสันนิษฐานนี้อ่อนแอลงโดยRA Fisherในงานของเขาในปี 1922 และ 1925 [13] [14] [15]ฟิชเชอร์สันนิษฐานว่าการกระจายแบบมีเงื่อนไขของตัวแปรตอบสนองคือ Gaussian แต่การกระจายร่วมกันไม่จำเป็นต้องเป็น ในแง่นี้ สมมติฐานของฟิชเชอร์ใกล้เคียงกับการกำหนดของเกาส์ในปี ค.ศ. 1821

ในทศวรรษที่ 1950 และ 1960 นักเศรษฐศาสตร์ใช้ "เครื่องคิดเลข" บนโต๊ะเครื่องกลไฟฟ้าเพื่อคำนวณการถดถอย ก่อนปี 1970 บางครั้งอาจใช้เวลาถึง 24 ชั่วโมงในการรับผลลัพธ์จากการถดถอยหนึ่งครั้ง [16]

วิธีการถดถอยยังคงเป็นพื้นที่ของการวิจัยที่ใช้งานอยู่ ในทศวรรษที่ผ่านมา ได้มีการพัฒนาวิธีการใหม่ๆ สำหรับ การถดถอยที่มี ประสิทธิภาพ การถดถอยที่เกี่ยวข้องกับการตอบสนองที่สัมพันธ์กัน เช่นอนุกรมเวลาและกราฟการเติบโตการถดถอยซึ่งตัวทำนาย (ตัวแปรอิสระ) หรือตัวแปรตอบสนองเป็นเส้นโค้ง รูปภาพ กราฟ หรือวัตถุข้อมูลที่ซับซ้อนอื่นๆ วิธีการถดถอยที่รองรับข้อมูลที่หายไปประเภทต่างๆ การ ถดถอยแบบไม่มี พารามิเตอร์ วิธีการถดถอยแบบเบส์การถดถอยที่วัดตัวแปรทำนายด้วยความคลาดเคลื่อน การถดถอยที่มีตัวแปรทำนายมากกว่าการสังเกต และการอนุมานเชิงสาเหตุด้วยการถดถอย

แบบจำลองการถดถอย

ในทางปฏิบัติ นักวิจัยเลือกแบบจำลองที่ต้องการประมาณค่าก่อน จากนั้นจึงใช้วิธีการที่เลือก (เช่นกำลังสองน้อยที่สุดธรรมดา ) เพื่อประมาณค่าพารามิเตอร์ของแบบจำลองนั้น แบบจำลองการถดถอยเกี่ยวข้องกับส่วนประกอบต่อไปนี้:

  • พารามิเตอร์ที่ไม่รู้จักมักแสดงเป็นสเกลาร์หรือเวกเตอร์ .
  • ตัวแปรอิสระซึ่งถูกสังเกตในข้อมูลและมักจะแสดงเป็นเวกเตอร์(ที่ไหนหมายถึงแถวของข้อมูล)
  • ตัวแปรตามซึ่งสังเกตได้ในข้อมูลและมักแสดงแทนโดยใช้สเกลาร์.
  • เงื่อนไขข้อผิดพลาดซึ่งไม่ได้สังเกตโดยตรงในข้อมูลและมักแสดงแทนโดยใช้สเกลาร์.

ในด้านต่างๆ ของการใช้งานคำศัพท์ต่างๆ จะถูกใช้แทนตัวแปรตามและตัวแปรอิสระ

แบบจำลองการถดถอยส่วนใหญ่เสนอว่าเป็นหน้าที่ของและ, กับแทนคำข้อผิดพลาดเพิ่มเติมที่อาจอยู่ในตัวกำหนดที่ไม่ได้จำลองแบบของหรือสัญญาณรบกวนทางสถิติแบบสุ่ม:

เป้าหมายของนักวิจัยคือการประมาณการฟังก์ชันที่เหมาะกับข้อมูลมากที่สุด เพื่อดำเนินการวิเคราะห์การถดถอย รูปแบบของฟังก์ชันต้องระบุ บางครั้งรูปแบบของฟังก์ชันนี้ขึ้นอยู่กับความรู้เกี่ยวกับความสัมพันธ์ระหว่างและที่ไม่ต้องพึ่งพาข้อมูล หากไม่มีความรู้ดังกล่าวให้ใช้แบบฟอร์มที่ยืดหยุ่นหรือสะดวกสำหรับถูกเลือก ตัวอย่างเช่น การถดถอยเดียวแบบง่ายอาจเสนอ, เสนอแนะให้ผู้วิจัยเชื่อเพื่อเป็นค่าประมาณที่สมเหตุสมผลสำหรับกระบวนการทางสถิติที่สร้างข้อมูล

เมื่อนักวิจัยกำหนดแบบจำลองทางสถิติ ที่ต้องการ แล้ว การวิเคราะห์การถดถอยในรูปแบบต่างๆ จะให้เครื่องมือในการประมาณค่าพารามิเตอร์. ตัวอย่างเช่น กำลังสองน้อยที่สุด (รวมถึงตัวแปรที่พบมากที่สุด, กำลังสองน้อยที่สุดธรรมดา ) หาค่าของที่ลดผลรวมของข้อผิดพลาดกำลังสองให้น้อยที่สุด. วิธีการถดถอยที่กำหนดจะให้ค่าประมาณของ, มักจะแสดงเพื่อแยกแยะค่าประมาณจากค่าพารามิเตอร์จริง (ไม่ทราบ) ที่สร้างข้อมูล เมื่อใช้ค่าประมาณนี้ ผู้วิจัยสามารถใช้ค่าพอดี ได้ เพื่อการทำนายหรือประเมินความถูกต้องของแบบจำลองในการอธิบายข้อมูล ไม่ว่าผู้วิจัยจะสนใจในการประมาณการหรือไม่หรือค่าที่คาดการณ์ไว้จะขึ้นอยู่กับบริบทและเป้าหมายของพวกเขา ตามที่อธิบายไว้ในกำลังสองน้อยที่สุดธรรมดา มี การใช้กำลังสอง น้อยที่สุดอย่างแพร่หลายเนื่องจากฟังก์ชันประมาณค่าใกล้เคียงกับความคาดหวังแบบมีเงื่อนไข . [5]อย่างไรก็ตาม ตัวแปรทางเลือก (เช่นความเบี่ยงเบนสัมบูรณ์น้อยที่สุดหรือการถดถอยเชิงปริมาณ ) มีประโยชน์เมื่อนักวิจัยต้องการจำลองฟังก์ชันอื่นๆ.

สิ่งสำคัญคือต้องทราบว่าต้องมีข้อมูลที่เพียงพอในการประมาณการแบบจำลองการถดถอย ตัวอย่างเช่น สมมติว่านักวิจัยมีสิทธิ์เข้าถึงแถวของข้อมูลที่มีตัวแปรตามหนึ่งตัวและตัวแปรอิสระสองตัว:. สมมุติเพิ่มเติมว่าผู้วิจัยต้องการประมาณแบบจำลองเชิงเส้นสองตัวแปรผ่านกำลังสองน้อยที่สุด :. ถ้าผู้วิจัยเข้าถึงได้เท่านั้นจุดข้อมูล จากนั้นพวกเขาสามารถหาชุดค่าผสมมากมายนับไม่ถ้วนที่อธิบายข้อมูลได้ดีพอๆ กัน สามารถเลือกชุดค่าผสมใดก็ได้ที่ตรงใจซึ่งทั้งหมดนี้นำไปสู่และเป็นวิธีแก้ปัญหาที่ถูกต้องซึ่งลดผลรวมของเศษ เหลือกำลัง สอง เพื่อทำความเข้าใจว่าเหตุใดจึงมีตัวเลือกมากมายนับไม่ถ้วน โปรดทราบว่าระบบของสมการจะต้องแก้ไขสำหรับ 3 ไม่ทราบ ซึ่งทำให้ระบบunderdetermined อีกวิธีหนึ่งคือ เราสามารถเห็นภาพระนาบ 3 มิติจำนวนมหาศาลที่ผ่านไปมาจุดคงที่

โดยทั่วไปแล้ว ในการประมาณ แบบจำลอง กำลังสองน้อยที่สุดด้วยพารามิเตอร์ที่แตกต่างกัน ต้องมีจุดข้อมูลที่แตกต่างกัน ถ้าโดยทั่วไปแล้วจะไม่มีชุดของพารามิเตอร์ที่จะพอดีกับข้อมูลอย่างสมบูรณ์ ปริมาณมักปรากฏในการวิเคราะห์การถดถอย และเรียกว่าระดับความอิสระในตัวแบบ นอกจากนี้ ในการประมาณค่ากำลังสองน้อยที่สุดแบบตัวแปรอิสระต้องเป็นอิสระเชิงเส้น : จะต้องไม่สามารถสร้างตัวแปรอิสระใดๆ ขึ้นมาใหม่ได้โดยการบวกและคูณตัวแปรอิสระที่เหลือ ตามที่กล่าวไว้ในช่องกำลังสองน้อยที่สุดเงื่อนไขนี้ทำให้แน่ใจได้ว่าเป็นเมทริกซ์ ที่กลับด้านได้ ดังนั้นจึงเป็นวิธีแก้ปัญหาเฉพาะมีอยู่

สมมติฐานพื้นฐาน

โดยตัวของมันเองแล้ว การถดถอยเป็นเพียงการคำนวณโดยใช้ข้อมูล ในการตีความผลลัพธ์ของการถดถอยเป็นปริมาณทางสถิติที่มีความหมายซึ่งใช้วัดความสัมพันธ์ในโลกแห่งความเป็นจริง นักวิจัยมักจะใช้สมมติฐาน แบบดั้งเดิมจำนวน หนึ่ง สมมติฐานเหล่านี้มักประกอบด้วย:

  • กลุ่มตัวอย่างเป็นตัวแทนของประชากรโดยรวม
  • ตัวแปรอิสระถูกวัดโดยไม่มีข้อผิดพลาด
  • การเบี่ยงเบนจากแบบจำลองมีค่าที่คาดไว้เป็นศูนย์ โดยมีเงื่อนไขสำหรับตัวแปรร่วม:
  • ความแปรปรวนของสารตกค้างมีค่าคงที่ตลอดการสังเกต ( ความเป็นเอกภาพ )
  • สารตกค้างไม่สัมพันธ์กัน ในทางคณิตศาสตร์เมทริกซ์ความแปรปรวน–ความแปรปรวนร่วมของข้อผิดพลาดคือเส้นทแยงมุม

เงื่อนไขจำนวนหนึ่งเพียงพอให้ตัวประมาณค่ากำลังสองน้อยที่สุดมีคุณสมบัติที่ต้องการ โดยเฉพาะอย่างยิ่ง สมมติฐาน เกาส์-มาร์คอฟบอกเป็นนัยว่าการประมาณค่าพารามิเตอร์จะไม่เอนเอียงสอดคล้องกันและมีประสิทธิภาพในระดับของตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้น นักปฏิบัติได้พัฒนาวิธีการที่หลากหลายเพื่อรักษาคุณสมบัติที่พึงประสงค์บางส่วนหรือทั้งหมดเหล่านี้ในสภาพแวดล้อมจริง เนื่องจากข้อสันนิษฐานแบบคลาสสิกเหล่านี้ไม่น่าจะเป็นไปได้อย่างแน่นอน ตัวอย่างเช่น การสร้างแบบจำลองข้อผิดพลาดในตัวแปรสามารถนำไปสู่การประมาณค่าที่สมเหตุสมผล ตัวแปรอิสระถูกวัดโดยมีข้อผิดพลาด ข้อผิดพลาดมาตรฐานที่สอดคล้องกันแบบ heteroscedasticityทำให้ค่าความแปรปรวนของเพื่อเปลี่ยนค่าของ. ข้อผิดพลาดที่สัมพันธ์กันซึ่งมีอยู่ภายในชุดย่อยของข้อมูลหรือตามรูปแบบเฉพาะสามารถจัดการได้โดยใช้ข้อผิดพลาดมาตรฐานแบบคลัสเตอร์ การถดถอยถ่วงน้ำหนักทางภูมิศาสตร์หรือ ข้อผิดพลาดมาตรฐาน Newey-Westรวมถึงเทคนิคอื่นๆ เมื่อแถวของข้อมูลสอดคล้องกับตำแหน่งในอวกาศ ทางเลือกของการสร้างแบบจำลองภายในหน่วยทางภูมิศาสตร์สามารถส่งผลที่สำคัญได้ [17] [18]สาขาย่อยของเศรษฐมิติส่วนใหญ่เน้นไปที่การพัฒนาเทคนิคที่ช่วยให้นักวิจัยสามารถสรุปผลในโลกแห่งความเป็นจริงได้อย่างสมเหตุสมผลในสภาพแวดล้อมจริง โดยที่สมมติฐานแบบคลาสสิกไม่ถือเป็นจริงทุกประการ

การถดถอยเชิงเส้น

ในการถดถอยเชิงเส้น ข้อกำหนดของแบบจำลองคือตัวแปรตามเป็นการรวมกันเชิงเส้นของพารามิเตอร์ (แต่ไม่จำเป็นต้องเป็นเชิงเส้นในตัวแปรอิสระ ) ตัวอย่างเช่น ในการถดถอยเชิงเส้นอย่างง่ายสำหรับการสร้างแบบจำลองจุดข้อมูลมีตัวแปรอิสระหนึ่งตัว:และสองพารามิเตอร์และ:

เส้นตรง:

ในการถดถอยเชิงเส้นพหุมีตัวแปรอิสระหลายตัวหรือฟังก์ชันของตัวแปรอิสระ

การเพิ่มคำศัพท์ในในการถดถอยก่อนหน้านี้ให้:

พาราโบลา:

นี่ยังคงเป็นการถดถอยเชิงเส้น แม้ว่าการแสดงออกทางด้านขวามือจะเป็นกำลังสองในตัวแปรอิสระมันเป็นเชิงเส้นในพารามิเตอร์,และ

ในทั้งสองกรณี,เป็นคำแสดงข้อผิดพลาดและตัวห้อยดัชนีการสังเกตเฉพาะ

กลับไปที่กรณีเส้นตรง: จากกลุ่มตัวอย่างแบบสุ่มจากประชากร เราประมาณค่าพารามิเตอร์ของประชากรและรับตัวอย่างแบบจำลองการถดถอยเชิงเส้น:

ส่วนที่เหลือคือความแตกต่างระหว่างค่าของตัวแปรตามที่แบบจำลองทำนายไว้และค่าที่แท้จริงของตัวแปรตาม. วิธีการประมาณค่าวิธีหนึ่งคือ กำลังสองน้อย ที่สุดธรรมดา วิธีนี้ได้รับค่าประมาณพารามิเตอร์ที่ลดผลรวมของเศษ เหลือกำลังสอง , SSR :

การย่อฟังก์ชันนี้ให้เล็กที่สุดส่งผลให้ชุดสมการปกติชุดของสมการเชิงเส้นที่เกิดขึ้นพร้อมกันในพารามิเตอร์ ซึ่งได้รับการแก้ไขเพื่อให้ได้ค่าประมาณค่าพารามิเตอร์.

ภาพประกอบของการถดถอยเชิงเส้นในชุดข้อมูล

ในกรณีของการถดถอยอย่างง่าย สูตรสำหรับการประมาณการกำลังสองน้อยที่สุดคือ

ที่ไหนคือค่าเฉลี่ย (ค่าเฉลี่ย) ของค่าและเป็นค่าเฉลี่ยของค่า

ภายใต้สมมติฐานที่ว่าค่าความคลาดเคลื่อนของประชากรมีความแปรปรวนคงที่ ค่าประมาณของความแปรปรวนนั้นกำหนดโดย:

สิ่งนี้เรียกว่าข้อผิดพลาดกำลังสองเฉลี่ย (MSE) ของการถดถอย ตัวส่วนคือขนาดตัวอย่างที่ลดลงตามจำนวนพารามิเตอร์แบบจำลองที่ประเมินจากข้อมูลเดียวกันสำหรับ ผู้ถดถอยหรือหากใช้การสกัดกั้น [19]ในกรณีนี้ดังนั้นตัวส่วนคือ.

ข้อผิดพลาดมาตรฐานของการประมาณค่าพารามิเตอร์ถูกกำหนดโดย

ภายใต้สมมติฐานเพิ่มเติมที่ว่าโดยปกติแล้วจะมีการแจกแจงคำผิดพลาดของประชากร ผู้วิจัยสามารถใช้ข้อผิดพลาดมาตรฐานโดยประมาณเหล่านี้เพื่อสร้างช่วงความเชื่อมั่นและดำเนินการทดสอบสมมติฐานเกี่ยวกับพารามิเตอร์ของ ประชากร

โมเดลเชิงเส้นทั่วไป

ในแบบจำลองการถดถอยพหุคูณทั่วไปมีตัวแปรอิสระ:

ที่ไหนคือ- ข้อสังเกตเกี่ยวกับ-th ตัวแปรอิสระ ถ้าตัวแปรอิสระตัวแรกรับค่า 1 ทั้งหมด,, แล้วเรียกว่า การสกัดกั้น การ ถดถอย

ค่าประมาณพารามิเตอร์กำลังสองน้อยที่สุดได้จากสมการปกติ สามารถเขียนส่วนที่เหลือได้เป็น

สม การปกติคือ

ในสัญกรณ์เมทริกซ์ สมการปกติจะถูกเขียนเป็น

ที่ไหนองค์ประกอบของเป็น,องค์ประกอบของเวกเตอร์คอลัมน์เป็น, และองค์ประกอบของเป็น. ดังนั้นเป็น,เป็น, และเป็น. วิธีแก้ไขคือ

การวินิจฉัย

เมื่อสร้างแบบจำลองการถดถอยแล้ว อาจเป็นเรื่องสำคัญที่จะต้องยืนยันความพอดีของแบบจำลองและนัยสำคัญทางสถิติของพารามิเตอร์ที่ประมาณไว้ การตรวจสอบความพอดีที่ใช้กันทั่วไป ได้แก่R-squaredการวิเคราะห์รูปแบบของสิ่งตกค้างและการทดสอบสมมติฐาน สามารถตรวจสอบนัยสำคัญทางสถิติได้โดยการทดสอบ Fของความพอดีโดยรวม ตามด้วยการทดสอบค่า tของพารามิเตอร์แต่ละตัว

การตีความการทดสอบวินิจฉัยเหล่านี้ขึ้นอยู่กับสมมติฐานของแบบจำลองเป็นหลัก แม้ว่าการตรวจสอบส่วนที่เหลือสามารถใช้เพื่อทำให้แบบจำลองเป็นโมฆะได้ แต่ผลของการ ทดสอบค่า tหรือ การทดสอบ ค่า Fบางครั้งอาจตีความได้ยากกว่าหากสมมติฐานของแบบจำลองถูกละเมิด ตัวอย่างเช่น หากข้อผิดพลาดไม่มีการแจกแจงแบบปกติ ในตัวอย่างขนาดเล็ก พารามิเตอร์ที่ประมาณไว้จะไม่เป็นไปตามการแจกแจงแบบปกติและทำให้การอนุมานซับซ้อน อย่างไรก็ตาม ด้วยตัวอย่างที่ค่อนข้างใหญ่ทฤษฎีบทขีดจำกัดกลางสามารถเรียกใช้ได้ เพื่อให้การทดสอบสมมติฐานอาจดำเนินต่อไปโดยใช้การประมาณเชิงซีมโทติค

ตัวแปรตามจำกัด

ตัวแปรตามจำกัดซึ่งเป็นตัวแปรตอบสนองที่เป็นตัวแปรจัดหมวดหมู่หรือเป็นตัวแปรที่ถูกจำกัดให้อยู่ในช่วงที่กำหนดเท่านั้น มักจะเกิดขึ้นในเศรษฐมิติ

ตัวแปรตอบสนองอาจไม่ต่อเนื่องกัน ("จำกัด" ให้อยู่ในเซตย่อยของเส้นจริง) สำหรับตัวแปรไบนารี (ศูนย์หรือหนึ่ง) หากการวิเคราะห์ดำเนินไปด้วยการถดถอยเชิงเส้นกำลังสองน้อยที่สุด แบบจำลองนี้เรียกว่าแบบจำลองความน่าจะเป็นเชิงเส้น แบบจำลองไม่เชิงเส้นสำหรับตัวแปรตามไบนารีรวมถึงแบบจำลอง โพร บิตและ ลอจิ โมเดล โพร บิตหลายตัวแปรเป็นวิธีการมาตรฐานในการประมาณค่าความสัมพันธ์ร่วมกันระหว่างตัวแปรตามไบนารีหลายตัวและตัวแปรอิสระบางตัว สำหรับตัวแปรหมวดหมู่ที่มีค่ามากกว่าสองค่า จะมีmultinomial logit สำหรับตัวแปรลำดับที่มีค่ามากกว่าสองค่าและ สั่งซื้อ แบบจำลองprobit แบบจำลองการถดถอยแบบเซ็นเซอร์อาจใช้เมื่อสังเกตตัวแปรตามเป็นบางครั้งเท่านั้น และ แบบจำลองประเภท การแก้ไขของ Heckmanอาจใช้เมื่อไม่ได้สุ่มเลือกตัวอย่างจากกลุ่มประชากรที่สนใจ อีกทางเลือกหนึ่งสำหรับขั้นตอนดังกล่าวคือการถดถอยเชิงเส้นตามความสัมพันธ์แบบหลายกลุ่ม (หรือสหสัมพันธ์แบบหลายอนุกรม) ระหว่างตัวแปรหมวดหมู่ ขั้นตอนดังกล่าวแตกต่างกันในข้อสันนิษฐานเกี่ยวกับการแจกแจงของตัวแปรในประชากร หากตัวแปรเป็นค่าบวกที่มีค่าต่ำและแสดงถึงการเกิดขึ้นซ้ำของเหตุการณ์ ให้นับแบบจำลองเช่นการถดถอยแบบปัวซองหรือทวินามที่เป็นค่าลบอาจใช้โมเดล

การถดถอยแบบไม่เชิงเส้น

เมื่อฟังก์ชันแบบจำลองไม่เป็นเส้นตรงในพารามิเตอร์ ผลรวมของกำลังสองจะต้องถูกย่อให้เหลือน้อยที่สุดโดยกระบวนการวนซ้ำ สิ่งนี้แนะนำภาวะแทรกซ้อนมากมายที่สรุปไว้ใน ความแตกต่างระหว่างกำลังสองน้อย ที่สุด เชิงเส้นและไม่เป็นเชิงเส้น

การแก้ไขและการอนุมาน

ตรงกลาง เส้นตรงสอดแทรกแสดงถึงความสมดุลที่ดีที่สุดระหว่างจุดที่อยู่ด้านบนและด้านล่างของเส้นนี้ เส้นประแสดงถึงเส้นสุดโต่งสองเส้น เส้นโค้งแรกแสดงถึงค่าโดยประมาณ เส้นโค้งด้านนอกแสดงถึงการคาดคะเนสำหรับการวัดใหม่ [20]

แบบจำลองการถดถอยทำนายค่าของตัวแปรY ที่กำหนดค่าที่ทราบของ ตัวแปรX การ คาดคะเนภายในช่วงของค่าในชุดข้อมูลที่ใช้สำหรับการปรับโมเดลนั้นเรียกอย่างไม่เป็นทางการว่าการแก้ไข การ คาดคะเน ที่ อยู่นอกช่วงของข้อมูลนี้เรียกว่าการคาดคะเน การอนุมานขึ้นอยู่กับสมมติฐานการถดถอยอย่างมาก ยิ่งการคาดการณ์ออกนอกข้อมูลมากเท่าไร โมเดลก็ยิ่งมีโอกาสล้มเหลวมากขึ้นเนื่องจากความแตกต่างระหว่างสมมติฐานและข้อมูลตัวอย่างหรือค่าจริง

มีคำแนะนำโดยทั่วไป[ จำเป็นต้องอ้างอิง ]ว่าเมื่อทำการประมาณค่า ควรนำค่าประมาณของตัวแปรตามที่มีช่วงการทำนายที่แสดงค่าความไม่แน่นอนมาประกอบกัน ช่วงเวลาดังกล่าวมีแนวโน้มที่จะขยายอย่างรวดเร็วเนื่องจากค่าของตัวแปรอิสระเคลื่อนที่ออกนอกช่วงที่ครอบคลุมโดยข้อมูลที่สังเกตได้

ด้วยเหตุผลดังกล่าวและเหตุผลอื่นๆ บางคนมักจะพูดว่าอาจไม่ฉลาดที่จะทำการอนุมาน [21]

อย่างไรก็ตาม สิ่งนี้ไม่ครอบคลุมข้อผิดพลาดในการสร้างแบบจำลองทั้งหมดที่อาจเกิดขึ้น: โดยเฉพาะอย่างยิ่ง การสันนิษฐานของรูปแบบเฉพาะสำหรับความสัมพันธ์ระหว่างYและX การวิเคราะห์การถดถอยที่ดำเนินการอย่างเหมาะสมจะรวมถึงการประเมินว่ารูปแบบสมมตินั้นตรงกับข้อมูลที่สังเกตได้ดีเพียงใด แต่สามารถทำได้ภายในช่วงของค่าของตัวแปรอิสระที่มีอยู่จริงเท่านั้น ซึ่งหมายความว่าการคาดการณ์ใด ๆ นั้นขึ้นอยู่กับสมมติฐานที่ทำขึ้นเกี่ยวกับรูปแบบโครงสร้างของความสัมพันธ์แบบถดถอย คำแนะนำการปฏิบัติที่ดีที่สุดที่นี่[ จำเป็นต้องอ้างอิง ]คือไม่ควรเลือกความสัมพันธ์เชิงเส้นในตัวแปรและเชิงเส้นในพารามิเตอร์เพียงเพื่อความสะดวกในการคำนวณ แต่ควรนำความรู้ที่มีอยู่ทั้งหมดไปใช้ในการสร้างแบบจำลองการถดถอย หากความรู้นี้มีข้อเท็จจริงที่ว่าตัวแปรตามไม่สามารถอยู่นอกช่วงของค่าที่กำหนดได้ สิ่งนี้สามารถนำมาใช้ในการเลือกแบบจำลองได้ แม้ว่าชุดข้อมูลที่สังเกตจะไม่มีค่าใดอยู่ใกล้ขอบเขตดังกล่าวก็ตาม นัยของขั้นตอนการเลือกรูปแบบการทำงานที่เหมาะสมสำหรับการถดถอยนี้จะดีมากเมื่อพิจารณาการคาดคะเน อย่างน้อยที่สุด จะสามารถรับประกันได้ว่าการคาดคะเนใดๆ ที่เกิดขึ้นจากแบบจำลองที่ติดตั้งนั้น "เหมือนจริง" (หรือสอดคล้องกับสิ่งที่ทราบ)

การคำนวณพลังงานและขนาดตัวอย่าง

ไม่มีวิธีการที่ตกลงกันโดยทั่วไปสำหรับความสัมพันธ์ระหว่างจำนวนของการสังเกตกับจำนวนของตัวแปรอิสระในแบบจำลอง วิธีหนึ่งที่ Good และ Hardin คาดเดาคือ, ที่ไหนคือขนาดตัวอย่างคือจำนวนตัวแปรอิสระและคือจำนวนของการสังเกตที่จำเป็นเพื่อให้ได้ค่าความแม่นยำที่ต้องการ หากแบบจำลองมีตัวแปรอิสระเพียงตัวเดียว [22]ตัวอย่างเช่น นักวิจัยกำลังสร้างแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดข้อมูลที่ประกอบด้วยผู้ป่วย 1,000 ราย (). หากผู้วิจัยตัดสินใจว่าจำเป็นต้องมีการสังเกต 5 ข้อเพื่อกำหนดเส้นตรงอย่างแม่นยำ () จำนวนตัวแปรอิสระสูงสุดที่โมเดลรองรับได้คือ 4 เนื่องจาก

วิธีการอื่นๆ

แม้ว่าโดยปกติแล้วพารามิเตอร์ของแบบจำลองการถดถอยจะประเมินโดยใช้วิธีการกำลังสองน้อยที่สุด แต่วิธีการอื่นๆ ที่ถูกนำมาใช้ ได้แก่:

ซอฟต์แวร์

แพ็คเกจซอฟต์แวร์ทางสถิติที่สำคัญทั้งหมดทำการวิเคราะห์และการอนุมานการถดถอยกำลังสองน้อยที่สุด การถดถอยเชิงเส้นอย่างง่ายและการถดถอยพหุโดยใช้กำลังสองน้อยที่สุดสามารถทำได้ใน แอปพลิเคชัน สเปรดชีต บาง โปรแกรมและในเครื่องคิดเลขบางรุ่น แม้ว่าชุดซอฟต์แวร์ทางสถิติจำนวนมากสามารถดำเนินการถดถอยแบบไม่อิงพารามิเตอร์และแบบถาวรได้หลายประเภท แต่วิธีการเหล่านี้ไม่ได้มาตรฐานน้อยกว่า แพ็คเกจซอฟต์แวร์ที่แตกต่างกันใช้วิธีการที่แตกต่างกัน และวิธีการที่มีชื่อที่กำหนดอาจนำไปใช้แตกต่างกันในแพ็คเกจต่าง ๆ ซอฟต์แวร์การถดถอยเฉพาะทางได้รับการพัฒนาเพื่อใช้ในสาขาต่างๆ เช่น การวิเคราะห์เชิงสำรวจและการสร้างภาพระบบประสาท

ดูเพิ่มเติม

อ้างอิง

  1. ^ การวิเคราะห์เงื่อนไขที่จำเป็น
  2. เดวิด เอ. ฟรีดแมน (27 เมษายน 2552). แบบจำลองทางสถิติ: ทฤษฎีและการปฏิบัติ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ไอเอสบีเอ็น 978-1-139-47731-4.
  3. ^ ร. เดนนิสคุก; บทวิจารณ์ของ Sanford Weisbergและการวิเคราะห์อิทธิพลในการถดถอย ,วิธีการทางสังคมวิทยา , Vol. 13. (1982), น. 313–361
  4. ^ AM เลเจนเดร Nouvelles méthodes pour la détermination des orbites des comètes , Firmin Didot, Paris, 1805 “Sur la Méthode des moindres quarrés” ปรากฏเป็นภาคผนวก
  5. อรรถเป็น บทที่ 1 ของ: Angrist, JD, & Pischke, JS (2008) เศรษฐมิติที่ไม่เป็นอันตรายส่วนใหญ่: สหายของนักประจักษ์นิยม สำนักพิมพ์มหาวิทยาลัยพรินซ์ตัน.
  6. ^ ซีเอฟ เกาส์ การรวมกัน ของ Theoria เป็นการสังเกตum erroribus minimis obnoxiae (1821/1823)
  7. โมกุล, โรเบิร์ต จี. (2547). สถิติประยุกต์ ภาคเรียนที่ 2 . บริษัทสำนักพิมพ์ Kendall/Hunt หน้า 59. ไอเอสบีเอ็น  978-0-7575-1181-3.
  8. กัลตัน, ฟรานซิส (1989). “เครือญาติและความสัมพันธ์ (พิมพ์ซ้ำ 2532)” . สถิติศาสตร์ . 4 (2): 80–86. ดอย : 10.1214/ss/1177012581 . จ สท. 2245330 . 
  9. ^ ฟรานซิส กั"กฎทั่วไปของกรรมพันธุ์", ธรรมชาติ 15 (2420), 492–495, 512–514, 532–533 (Galton ใช้คำว่า "reversion" ในบทความนี้ ซึ่งกล่าวถึงขนาดของเมล็ดถั่ว)
  10. ^ ฟรานซิส กัลตัน คำปราศรัยของประธานาธิบดี หมวด H มานุษยวิทยา (1885) (Galton ใช้คำว่า "regression" ในบทความนี้ ซึ่งกล่าวถึงความสูงของมนุษย์)
  11. Yule, G. Udny (พ.ศ. 2440). "ว่าด้วยทฤษฎีสหสัมพันธ์" . วารสารราชบัณฑิตยสภา . 60 (4): 812–54. ดอย : 10.2307/2979746 . จ สท. 2979746 . 
  12. เพียร์สัน, คาร์ล ; เทศกาลคริสต์มาส, GU; แบลนชาร์ด, นอร์แมน ; ลี, อลิซ (1903). “กฎแห่งกรรมพันธุ์” . ไบโอเมต ริกา 2 (2): 211–236. ดอย : 10.1093/biomet/2.2.211 . จ สท 2331683 . 
  13. ^ ฟิชเชอร์ RA (1922) "ความพอดีของสูตรการถดถอยและการกระจายของสัมประสิทธิ์การถดถอย" . วารสารราชบัณฑิตยสภา . 85 (4): 597–612. ดอย : 10.2307/2341124 . จ สท 2341124 . PMC 1084801 .  
  14. โรนัลด์ เอ. ฟิชเชอร์ (1954). วิธีการทางสถิติสำหรับผู้ทำงานวิจัย (พิมพ์ครั้งที่ 12). เอดินเบอระ : โอลิเวอร์และบอยด์ ไอเอสบีเอ็น 978-0-05-002170-5.
  15. ^ อัลดริช, จอห์น (2548). "ฟิชเชอร์และการถดถอย" . สถิติศาสตร์ . 20 (4): 401–417. ดอย : 10.1214/088342305000000331 . จ สท. 25491201 . 
  16. ^ ร็อดนีย์ รามจรัญ. การถดถอย: ทำไมนักเศรษฐศาสตร์ถึงหมกมุ่นอยู่กับสิ่งเหล่านี้? มีนาคม 2549 เข้าถึง 2554-12-03
  17. โฟเธอริงแฮม, อ. สจ๊วต; บรันสดัน, คริส ; ชาร์ลตัน, มาร์ติน (2545). การถดถอยถ่วงน้ำหนักทางภูมิศาสตร์: การวิเคราะห์ความสัมพันธ์ที่แปรผันเชิงพื้นที่ (พิมพ์ซ้ำ) ชิเชสเตอร์ อังกฤษ: John Wiley ไอเอสบีเอ็น 978-0-471-49616-8.
  18. ^ โฟเทอริงแฮม AS; Wong, DWS (1 มกราคม 2534). "ปัญหาหน่วยพื้นที่ที่แก้ไขได้ในการวิเคราะห์ทางสถิติหลายตัวแปร". สิ่งแวดล้อมและการวางแผน ก . 23 (7): 1025–1044. ดอย : 10.1068/a231025 . S2CID 153979055 _ 
  19. Steel, RGD และ Torrie, JH,หลักการและขั้นตอนของสถิติที่มีการอ้างอิงพิเศษเกี่ยวกับวิทยาศาสตร์ชีวภาพ , McGraw Hill , 1960, หน้า 288.
  20. รูโอด์, มาติเยอ (2013). ความน่าจะเป็น สถิติ และการประมาณค่า (PDF) . หน้า 60.
  21. ^ Chiang, CL, (2003)วิธีการวิเคราะห์ทางสถิติ , World Scientific. ISBN 981-238-310-7 -หน้า 274 ส่วน 9.7.4 "การแก้ไข vs การคาดการณ์" 
  22. ^ ดี, ปี่ ; ฮาร์ดิน, JW (2009). ข้อผิดพลาดทั่วไปในสถิติ (และวิธีหลีกเลี่ยง) (ฉบับที่ 3) โฮโบเกน, นิวเจอร์ซีย์: Wiley. หน้า 211. ไอเอสบีเอ็น 978-0-470-45798-6.
  23. ^ Tofallis, C. (2009). "การถดถอยเปอร์เซ็นต์กำลังสองน้อยที่สุด" . วารสารวิธีทางสถิติประยุกต์สมัยใหม่ . 7 : 526–534. ดอย : 10.2139/ssrn.1406472 . SSRN 1406472 . 
  24. ^ หยางจิงหลง (2552). "การคาดคะเนอายุมนุษย์ด้วยการเรียนรู้เมตริกสำหรับปัญหาการถดถอย" (PDF) . โพรซี การประชุมนานาชาติเกี่ยวกับการวิเคราะห์รูปภาพและรูปแบบด้วยคอมพิวเตอร์ : 74–82. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2010-01-08

อ่านเพิ่มเติม

Evan J. Williams, "I. Regression," หน้า 523–41
Julian C. Stanley , "II. การวิเคราะห์ความแปรปรวน" หน้า 541–554
  • ลินลี่ย์, DV (1987). "การวิเคราะห์การถดถอยและสหสัมพันธ์" New Palgrave: A Dictionary of Economics , v. 4, pp. 120–23
  • Birkes, David และDodge, Y. , วิธีการทางเลือก ของการถดถอย ไอ0-471-56881-3 
  • Chatfield, C. (1993) " การคำนวณการคาดการณ์ช่วงเวลา " วารสารธุรกิจและ สถิติเศรษฐกิจ 11 หน้า 121–135.
  • เดรเปอร์ NR; สมิธ เอช. (1998). การวิเคราะห์การถดถอยประยุกต์ (ฉบับที่ 3) จอห์น ไวลีย์. ไอเอสบีเอ็น 978-0-471-17082-2.
  • ฟ็อกซ์ เจ. (1997). การวิเคราะห์การถดถอยประยุกต์ แบบจำลองเชิงเส้นและวิธีการที่เกี่ยวข้อง ปราชญ์
  • Hardle, W., การถดถอย แบบไม่อิงพารามิเตอร์ประยุกต์ (1990), ISBN 0-521-42950-1 
  • มี้ด, ไนเจล; อิสลาม, เตาฮีดุล (2538). "ช่วงเวลาการทำนายสำหรับการคาดการณ์เส้นโค้งการเติบโต" วารสารพยากรณ์ . 14 (5): 413–430. ดอย : 10.1002/for.3980140502 .
  • A. Sen, M. Srivastava, Regression Analysis — Theory, Methods, and Applications , Springer-Verlag, Berlin, 2011 (พิมพ์ครั้งที่ 4).
  • T. Strutz: ความเหมาะสมของข้อมูลและความไม่แน่นอน (คำแนะนำเชิงปฏิบัติเกี่ยวกับกำลังสองน้อยที่สุดและเกินน้ำหนัก ) Vieweg+Teubner , ISBN 978-3-8348-1022-9 
  • Stulp, Freek และ Olivier Sigaud อัลกอริทึมการถดถอยจำนวนมาก โมเดลรวมหนึ่งเดียว: บทวิจารณ์ โครงข่ายประสาทเทียมฉบับ 69 กันยายน 2015 หน้า 60–79 https://doi.org/10.1016/j.neunet.2015.05.005 .
  • มาลาคูตี, บี. (2556). การปฏิบัติการและระบบการผลิตที่มี หลายวัตถุประสงค์ จอห์น ไวลีย์ แอนด์ ซันส์

ลิงค์ภายนอก