การถดถอยเชิงเส้น

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

ในสถิติการถดถอยเชิงเส้นเป็น แนวทาง เชิงเส้นสำหรับการสร้างแบบจำลองความสัมพันธ์ระหว่างการ ตอบสนอง สเกลาร์กับตัวแปรอธิบายหนึ่งตัวหรือมากกว่า (หรือที่เรียกว่า ตัวแปรตาม และตัวแปรอิสระ ) กรณีของตัวแปรอธิบายหนึ่งตัวเรียกว่าการถดถอยเชิงเส้นอย่างง่าย กระบวนการนี้เรียกว่าการถดถอยเชิงเส้นพหุคูณมากกว่าหนึ่ง [1]คำนี้แตกต่างจากการถดถอยเชิงเส้นพหุ ตัวแปร ซึ่งทำนายตัวแปรตามที่มี ความสัมพันธ์หลายตัว แทนที่จะเป็นตัวแปรสเกลาร์ตัวเดียว [2]

ในการถดถอยเชิงเส้น ความสัมพันธ์จะถูกจำลองโดยใช้ฟังก์ชันตัวทำนายเชิงเส้น ซึ่ง พารามิเตอร์ของแบบจำลองที่ไม่รู้จักถูกประมาณจากข้อมูล โมเดลดังกล่าวเรียกว่าโมเดลเชิงเส้น [3]โดยทั่วไปค่าเฉลี่ยตามเงื่อนไขของการตอบสนองที่กำหนดค่าของตัวแปรอธิบาย (หรือตัวทำนาย) จะถือว่าเป็นฟังก์ชัน ที่สัมพันธ์ กันของค่าเหล่านั้น โดยทั่วไปจะใช้ค่ามัธยฐาน แบบมีเงื่อนไข หรือ ค วอนไท ล์อื่นๆ น้อย กว่า เช่นเดียวกับการวิเคราะห์การถดถอยทุกรูปแบบการถดถอยเชิงเส้นเน้นที่การกระจายความน่าจะเป็นแบบมีเงื่อนไขของการตอบสนองที่กำหนดค่าของตัวทำนาย มากกว่าการกระจายความน่าจะเป็นร่วมกันของตัวแปรทั้งหมดเหล่านี้ ซึ่งเป็นโดเมนของการวิเคราะห์หลายตัวแปร

การถดถอยเชิงเส้นเป็นการวิเคราะห์การถดถอยประเภทแรกที่มีการศึกษาอย่างเข้มงวด และจะใช้อย่างกว้างขวางในการใช้งานจริง [4]นี่เป็นเพราะว่าแบบจำลองซึ่งขึ้นอยู่กับพารามิเตอร์ที่ไม่รู้จักเชิงเส้นตรงนั้นง่ายต่อการปรับให้พอดีกว่าแบบจำลองที่ไม่สัมพันธ์เชิงเส้นกับพารามิเตอร์ของพวกมัน และเนื่องจากคุณสมบัติทางสถิติของตัวประมาณที่เป็นผลลัพธ์นั้นง่ายต่อการกำหนด

การถดถอยเชิงเส้นมีประโยชน์หลายประการ แอปพลิเคชันส่วนใหญ่จัดอยู่ในหนึ่งในสองหมวดหมู่กว้างๆ ต่อไปนี้:

  • หากเป้าหมายคือการคาดคะเน การพยากรณ์หรือการลดข้อผิดพลาด[ จำเป็นต้องมีการชี้แจง ]การถดถอยเชิงเส้นสามารถใช้เพื่อให้พอดีกับแบบจำลองการทำนายกับชุดข้อมูลที่ สังเกตได้ ของค่าของการตอบสนองและตัวแปรอธิบาย หลังจากพัฒนาแบบจำลองดังกล่าวแล้ว หากค่าเพิ่มเติมของตัวแปรอธิบายถูกรวบรวมโดยไม่มีค่าการตอบสนองมาพร้อมกัน สามารถใช้แบบจำลองที่พอดีเพื่อคาดการณ์การตอบสนองได้
  • ถ้าเป้าหมายคือการอธิบายความผันแปรในตัวแปรตอบสนองที่สามารถนำมาประกอบกับการแปรผันในตัวแปรอธิบายได้ สามารถใช้การวิเคราะห์การถดถอยเชิงเส้นเพื่อหาปริมาณความแรงของความสัมพันธ์ระหว่างการตอบสนองและตัวแปรอธิบาย และโดยเฉพาะอย่างยิ่งเพื่อกำหนดว่าบางตัวแปร ตัวแปรอธิบายอาจไม่มีความสัมพันธ์เชิงเส้นตรงกับการตอบสนองเลย หรือเพื่อระบุว่าชุดย่อยของตัวแปรอธิบายใดที่อาจมีข้อมูลที่ซ้ำซ้อนเกี่ยวกับการตอบสนอง

แบบจำลองการถดถอยเชิงเส้นมักใช้ วิธีการ กำลังสองน้อยที่สุดแต่อาจติดตั้งด้วยวิธีอื่นได้ เช่น โดยการลด "การขาดความพอดี" ให้น้อยที่สุดในบรรทัดฐาน อื่น (เช่นเดียวกับ การถดถอยแบบ สัมบูรณ์น้อยที่สุด ) หรือโดยการลดโทษ รุ่นของฟังก์ชันต้นทุน กำลังสองน้อยที่สุด เช่นเดียวกับการถดถอยของสัน ( L 2 -ค่าปรับปกติ) และเชือก ( L 1 -ค่าปรับปกติ) ในทางกลับกัน วิธีกำลังสองน้อยที่สุดสามารถใช้เพื่อให้พอดีกับแบบจำลองที่ไม่ใช่ตัวแบบเชิงเส้น ดังนั้น แม้ว่าคำว่า "กำลังสองน้อยที่สุด" และ "โมเดลเชิงเส้น" จะเชื่อมโยงอย่างใกล้ชิด แต่ก็ไม่ได้มีความหมายเหมือนกัน

สูตร

ในการถดถอยเชิงเส้น การสังเกต ( สีแดง ) จะถือว่าเป็นผลมาจากการเบี่ยงเบนแบบสุ่ม ( สีเขียว ) จากความสัมพันธ์พื้นฐาน ( สีน้ำเงิน ) ระหว่างตัวแปรตาม ( y ) และตัวแปรอิสระ ( x )

รับชุดข้อมูลของn หน่วยทางสถิติแบบจำลองการถดถอยเชิงเส้นถือว่าความสัมพันธ์ระหว่างตัวแปรตามyและเวกเตอร์pของตัวถดถอยxเป็นเส้นตรง ความสัมพันธ์นี้สร้างแบบจำลองผ่านเงื่อนไขการรบกวนหรือตัวแปรข้อผิดพลาด εตัวแปรสุ่ม ที่ไม่มีการสังเกต ที่เพิ่ม "สัญญาณรบกวน" ให้กับความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวถดถอย ดังนั้นตัวแบบจึงอยู่ในรูป

โดยที่Tหมายถึง ท รานสโพส ดังนั้นx i T βเป็นผลิตภัณฑ์ภายในระหว่างเวก เตอร์ x iและβ

บ่อยครั้ง ที่สมการ n เหล่านี้ ซ้อนกันและเขียนด้วยสัญกรณ์เมทริกซ์เป็น

ที่ไหน

สัญกรณ์และคำศัพท์

  • เป็นเวกเตอร์ของค่าที่สังเกตได้ของตัวแปรที่เรียกว่าregressand ตัวแปรภายในตัวแปรตอบสนอง ตัวแปรที่วัด ตัวแปรเกณฑ์หรือตัวแปรตาม ตัวแปรนี้บางครั้งเรียกว่าตัวแปรทำนายแต่ไม่ควรสับสนกับค่าที่ทำนายซึ่งแสดงไว้. การตัดสินใจว่าตัวแปรใดในชุดข้อมูลถูกจำลองเป็นตัวแปรตามและตัวแปรใดถูกจำลองเป็นตัวแปรอิสระอาจขึ้นอยู่กับข้อสันนิษฐานว่าค่าของตัวแปรตัวใดตัวหนึ่งเกิดจากหรือได้รับอิทธิพลโดยตรงจากตัวแปรอื่น อีกทางหนึ่ง อาจมีเหตุผลในการดำเนินงานเพื่อสร้างแบบจำลองตัวแปรตัวหนึ่งในแง่ของตัวแปรอื่นๆ ซึ่งในกรณีนี้ ไม่จำเป็นต้องมีการสันนิษฐานถึงความเป็นเหตุเป็นผล
  • อาจถูกมองว่าเป็นเมทริกซ์ของเวกเตอร์แถวหรือของ เวกเตอร์คอลัมน์ nมิติซึ่งเป็นที่รู้จักในชื่อregressors , ตัวแปรภายนอก , ตัวแปร อธิบาย , covariates , ตัวแปรอินพุต , ตัวแปร ทำนายหรือตัวแปรอิสระ (เพื่อไม่ให้สับสนกับแนวคิดของตัวแปรสุ่มอิสระ ) เดอะเมทริกซ์บางครั้งเรียกว่า เมทริก ซ์ การออกแบบ
    • โดยปกติค่าคงที่จะถูกรวมเป็นหนึ่งในตัวถดถอย โดยเฉพาะอย่างยิ่ง,สำหรับ. องค์ประกอบที่สอดคล้องกันของβเรียกว่าการสกัดกั้น กระบวนการอนุมานทางสถิติจำนวนมากสำหรับตัวแบบเชิงเส้นจำเป็นต้องมีการสกัดกั้น ดังนั้นจึงมักจะรวมอยู่ด้วยแม้ว่าการพิจารณาทางทฤษฎีจะแนะนำว่าค่าของตัวแบบเชิงเส้นควรเป็นศูนย์
    • บางครั้งตัวถดถอยตัวใดตัวหนึ่งอาจเป็นฟังก์ชันไม่เชิงเส้นของตัวถดถอยตัวอื่นหรือของข้อมูล เช่น ในการถดถอยพหุนามและ การถดถอย แบบแบ่งส่วน โมเดลยังคงเป็นเส้นตรงตราบใดที่มันเป็นเส้นตรงในเวกเตอร์พารามิเตอร์β
    • ค่าx ijอาจถูกมองว่าเป็นค่าที่สังเกตได้ของตัวแปรสุ่ม X jหรือเป็นค่าคงที่ที่เลือกไว้ก่อนที่จะสังเกตตัวแปรตาม การตีความทั้งสองแบบอาจมีความเหมาะสมในแต่ละกรณี และโดยทั่วไปแล้วจะนำไปสู่ขั้นตอนการประเมินที่เหมือนกัน อย่างไรก็ตาม ทั้งสองสถานการณ์จะใช้วิธีการที่แตกต่างกันในการวิเคราะห์เชิงแสดง
  • คือ- เวกเตอร์พารามิเตอร์มิติโดยที่คือระยะการสกัดกั้น (หากรวมไว้ในแบบจำลอง—มิฉะนั้นคือp -มิติ) องค์ประกอบของมันเรียกว่า เอ ฟเฟ กต์ หรือสัมประสิทธิ์การถดถอย (แม้ว่าบางครั้งเทอมหลังจะสงวนไว้สำหรับ เอฟเฟกต์ โดยประมาณ ) ในการถดถอยเชิงเส้นอย่างง่าย p = 1 และสัมประสิทธิ์เรียกว่าความชันการถดถอย. การประมาณค่าทางสถิติและ การ อนุมานในการถดถอยเชิงเส้นเน้นที่β องค์ประกอบของเวกเตอร์พารามิเตอร์นี้ถูกตีความว่าเป็นอนุพันธ์บางส่วนของตัวแปรตามที่เกี่ยวข้องกับตัวแปรอิสระต่างๆ
  • เป็นเวกเตอร์ของค่า. ส่วนนี้ของแบบจำลองนี้เรียกว่าระยะข้อผิดพลาด ระยะการรบกวนหรือบางครั้งเสียง (ตรงกันข้ามกับ "สัญญาณ" ที่จัดหาโดยรุ่นที่เหลือ) ตัวแปรนี้จับปัจจัยอื่นๆ ทั้งหมดที่มีอิทธิพลต่อตัวแปรตามy ที่ไม่ใช่ ตัวถดถอยx ความสัมพันธ์ระหว่างค่าความผิดพลาดกับค่าถดถอย เช่นสหสัมพันธ์เป็นข้อพิจารณาที่สำคัญอย่างยิ่งในการจัดทำแบบจำลองการถดถอยเชิงเส้น เนื่องจากจะเป็นตัวกำหนดวิธีการประมาณที่เหมาะสม

การติดตั้งตัวแบบเชิงเส้นกับชุดข้อมูลที่กำหนดมักจะต้องมีการประมาณค่าสัมประสิทธิ์การถดถอย ว่าคำผิดถูกย่อเล็กสุด ตัวอย่างเช่น เป็นเรื่องปกติที่จะใช้ผลรวมของข้อผิดพลาดกำลังสองเป็นตัววัดของสำหรับการย่อเล็กสุด

ตัวอย่าง

พิจารณาสถานการณ์ที่ลูกบอลขนาดเล็กถูกโยนขึ้นไปในอากาศ จากนั้นเราวัดความสูงของการขึ้นh iในช่วงเวลาต่างๆt i ฟิสิกส์บอกเราว่า ละเลยการลาก ความสัมพันธ์สามารถจำลองเป็น

โดยที่β 1กำหนดความเร็วเริ่มต้นของลูกบอลβ 2เป็นสัดส่วนกับแรงโน้มถ่วงมาตรฐานและε iเกิดจากข้อผิดพลาดในการวัด การถดถอยเชิงเส้นสามารถใช้ในการประมาณค่าของβ 1และβ 2จากข้อมูลที่วัดได้ โมเดลนี้ไม่เป็นเชิงเส้นในตัวแปรเวลา แต่เป็นเชิงเส้นในพารามิเตอร์β 1และβ 2 ; ถ้าเราหาตัวถดถอยx i  = ( x i 1 , x i 2 ) = ( t i ,t i 2 ) โมเดลใช้รูปแบบมาตรฐาน

สมมติฐาน

ตัวแบบการถดถอยเชิงเส้นมาตรฐานพร้อมเทคนิคการประมาณค่ามาตรฐานสร้างสมมติฐานจำนวนหนึ่งเกี่ยวกับตัวแปรทำนาย ตัวแปรตอบสนอง และความสัมพันธ์ของพวกมัน ส่วนขยายจำนวนมากได้รับการพัฒนาขึ้นเพื่อให้แต่ละข้อสันนิษฐานเหล่านี้ผ่อนคลาย (เช่น ลดให้อยู่ในรูปแบบที่อ่อนแอกว่า) และในบางกรณีก็ขจัดไปโดยสิ้นเชิง โดยทั่วไป ส่วนขยายเหล่านี้จะทำให้ขั้นตอนการประเมินซับซ้อนและใช้เวลานานขึ้น และอาจต้องการข้อมูลเพิ่มเติมด้วยเพื่อสร้างแบบจำลองที่แม่นยำเท่าเทียมกัน

ตัวอย่างของการถดถอยพหุนามลูกบาศก์ซึ่งเป็นประเภทของการถดถอยเชิงเส้น แม้ว่าการถดถอยพหุนาม จะ พอดีกับแบบจำลองไม่เชิงเส้นกับข้อมูล เนื่องจาก ปัญหา การประมาณค่าทางสถิติมันเป็นเส้นตรง ในแง่ที่ว่าฟังก์ชันการถดถอย E( y | x ) เป็นเส้นตรงใน พารามิเตอร์ ที่ ไม่รู้จักซึ่งประเมินจากข้อมูล ด้วยเหตุนี้ การถดถอยพหุนามจึงถือเป็นกรณีพิเศษของ การถดถอย เชิงเส้นพหุคูณ

ต่อไปนี้เป็นข้อสมมติหลักๆ ที่จัดทำโดยตัวแบบการถดถอยเชิงเส้นมาตรฐานโดยใช้เทคนิคการประมาณค่ามาตรฐาน (เช่นกำลังสองน้อยที่สุดธรรมดา )

  • ความ เป็นภายนอกที่อ่อนแอ โดยพื้นฐานแล้วหมายความว่าตัวแปรทำนายxสามารถถือเป็นค่าคงที่ แทนที่จะเป็นตัวแปรสุ่ม ซึ่งหมายความว่า ตัวอย่างเช่น ตัวแปรทำนายจะถือว่าปราศจากข้อผิดพลาด กล่าวคือ ไม่ถูกปนเปื้อนด้วยข้อผิดพลาดในการวัด แม้ว่าสมมติฐานนี้จะไม่เกิดขึ้นจริงในการตั้งค่าต่างๆ มากมาย การทิ้งสมมติฐานนี้นำไปสู่แบบจำลองข้อผิดพลาดในตัวแปร ที่ยากขึ้นอย่าง มาก
  • ความเป็น เส้นตรง ซึ่งหมายความว่าค่าเฉลี่ยของตัวแปรตอบสนองคือผลรวมเชิงเส้นของพารามิเตอร์ (สัมประสิทธิ์การถดถอย) และตัวแปรทำนาย โปรดทราบว่าสมมติฐานนี้มีข้อจำกัดน้อยกว่าในตอนแรกมาก เนื่องจากตัวแปรทำนายถือเป็นค่าคงที่ (ดูด้านบน) ความเป็นเส้นตรงเป็นเพียงข้อจำกัดของพารามิเตอร์เท่านั้น ตัวแปรทำนายด้วยตัวมันเองสามารถแปลงได้โดยพลการ และในความเป็นจริง สามารถเพิ่มสำเนาของตัวแปรทำนายพื้นฐานเดียวกันได้หลายชุด โดยแต่ละตัวแปรจะแปลงต่างกัน เทคนิคนี้ใช้ตัวอย่างเช่นในการถดถอยพหุนามซึ่งใช้การถดถอยเชิงเส้นเพื่อให้พอดีกับตัวแปรตอบสนองเป็นพหุนาม ตามอำเภอใจฟังก์ชัน (ขึ้นอยู่กับระดับที่กำหนด) ของตัวแปรทำนาย ด้วยความยืดหยุ่นนี้ แบบจำลองต่างๆ เช่น การถดถอยพหุนามมักมี "กำลังมากเกินไป" โดยที่แบบจำลองเหล่านี้มักจะใส่ข้อมูลมากเกินไป ด้วยเหตุนี้ จึง มักต้องใช้การทำให้เป็นมาตรฐานบางประเภท เพื่อป้องกันโซลูชันที่ไม่สมเหตุผลออกมาจากกระบวนการประมาณค่า ตัวอย่างทั่วไป ได้แก่การถดถอยแนวสันและการถดถอยแบบลาส โซ่ นอกจากนี้ยังสามารถใช้การถดถอยเชิงเส้นแบบเบย์ ซึ่งโดยธรรมชาติแล้วจะมีภูมิคุ้มกันต่อปัญหาการใส่มากเกินไปหรือน้อยลง (อันที่จริงการถดถอยแนวสันและการถดถอยแบบบ่วงบาศสามารถมองได้ทั้งกรณีพิเศษของการถดถอยเชิงเส้นแบบเบย์ โดยมีประเภทเฉพาะการแจกแจงก่อนหน้าวางบนสัมประสิทธิ์การถดถอย)
  • ความแปรปรวนคง ที่ (aka homoscedasticity ). ซึ่งหมายความว่าความแปรปรวนของข้อผิดพลาดไม่ได้ขึ้นอยู่กับค่าของตัวแปรทำนาย ดังนั้นความแปรปรวนของการตอบสนองสำหรับค่าคงที่ที่กำหนดของตัวทำนายจะเหมือนกันไม่ว่าคำตอบจะมากหรือน้อย ซึ่งมักไม่เป็นเช่นนั้น เนื่องจากตัวแปรที่มีค่าเฉลี่ยมากมักจะมีความแปรปรวนมากกว่าตัวแปรที่มีค่าเฉลี่ยน้อย ตัวอย่างเช่น บุคคลที่คาดว่าจะมีรายได้ $100,000 อาจมีรายได้จริงที่ $80,000 หรือ $120,000—กล่าวคือค่าเบี่ยงเบนมาตรฐานประมาณ 20,000 ดอลลาร์—ในขณะที่อีกคนหนึ่งที่คาดว่าจะมีรายได้ 10,000 ดอลลาร์ไม่น่าจะมีส่วนเบี่ยงเบนมาตรฐานเท่ากับ 20,000 ดอลลาร์ เนื่องจากนั่นจะบ่งบอกว่ารายได้จริงของพวกเขาอาจแตกต่างกันระหว่าง −10,000 ถึง 30,000 ดอลลาร์ (อันที่จริง ตามที่แสดงให้เห็นในหลายกรณี—ซึ่งมักจะเป็นกรณีเดียวกันกับที่สมมติฐานของข้อผิดพลาดแบบกระจายตามปกติล้มเหลว—ความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐานควรคาดการณ์ว่าเป็นสัดส่วนกับค่าเฉลี่ย แทนที่จะเป็นค่าคงที่) การไม่มี homoscedasticity คือ เรียกว่าความต่าง. เพื่อตรวจสอบสมมติฐานนี้ สามารถตรวจสอบแผนภาพของค่าคงเหลือเทียบกับค่าที่คาดการณ์ไว้ (หรือค่าของตัวทำนายแต่ละตัว) เพื่อหา "เอฟเฟกต์การพัด" (กล่าวคือ การเพิ่มหรือลดการแพร่กระจายในแนวตั้งเมื่อเลื่อนจากซ้ายไปขวาบนโครงเรื่อง) . แผนภาพของค่าคงเหลือแบบสัมบูรณ์หรือกำลังสองเทียบกับค่าที่คาดการณ์ไว้ (หรือตัวทำนายแต่ละตัว) สามารถตรวจสอบหาแนวโน้มหรือความโค้งได้ สามารถใช้การทดสอบแบบเป็นทางการได้เช่นกัน ดู ความ แตกต่าง การมีอยู่ของ heteroscedasticity จะส่งผลให้ค่าประมาณ "เฉลี่ย" โดยรวมของความแปรปรวนถูกใช้แทนค่าที่คำนึงถึงโครงสร้างความแปรปรวนที่แท้จริง ทำให้แม่นยำน้อยลง (แต่ในกรณีของกำลังสองน้อยที่สุดธรรมดาไม่เอนเอียง) การประมาณค่าพารามิเตอร์และข้อผิดพลาดมาตรฐานแบบเอนเอียง ส่งผลให้เกิดการทดสอบที่ทำให้เข้าใจผิดและการประมาณช่วงเวลา ความคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับโมเดลก็จะผิดเช่นกัน เทคนิคการประมาณค่าต่างๆ รวมทั้งกำลังสองน้อยที่สุดที่ถ่วงน้ำหนักและการใช้ข้อผิดพลาดมาตรฐานที่สม่ำเสมอของ heteroscedasticityสามารถจัดการกับ heteroscedasticity ได้ในลักษณะที่ค่อนข้างทั่วไป เทคนิค การถดถอยเชิงเส้นแบบเบย์ยังสามารถใช้เมื่อถือว่าความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย ในบางกรณีอาจแก้ไขปัญหาโดยใช้การแปลงกับตัวแปรตอบสนอง (เช่น การปรับลอการิทึมของตัวแปรตอบสนองให้เหมาะสมโดยใช้แบบจำลองการถดถอยเชิงเส้น ซึ่งหมายความว่าตัวแปรตอบสนองเองมีการแจกแจงแบบล็อกปกติมากกว่าการแจกแจงแบบปกติ )
  • ในการตรวจสอบการละเมิดสมมติฐานเกี่ยวกับความเป็นเส้นตรง ความแปรปรวนคงที่ และความเป็นอิสระของข้อผิดพลาดภายในแบบจำลองการถดถอยเชิงเส้น โดยทั่วไปแล้ว เศษที่เหลือจะถูกพล็อตเทียบกับค่าที่ทำนายไว้ (หรือตัวทำนายแต่ละตัว) การกระจัดกระจายแบบสุ่มที่เห็นได้ชัดเกี่ยวกับเส้นกึ่งกลางแนวนอนที่ 0 นั้นเหมาะสมที่สุด แต่ไม่สามารถแยกแยะการละเมิดบางประเภทได้ เช่นความสัมพันธ์อัตโนมัติในข้อผิดพลาดหรือความสัมพันธ์ของตัวแปรร่วมอย่างน้อยหนึ่งกลุ่ม
    ความเป็นอิสระของข้อผิดพลาด นี่ถือว่าข้อผิดพลาดของตัวแปรตอบสนองไม่สัมพันธ์กัน ( ความเป็นอิสระทางสถิติ ตามจริง เป็นเงื่อนไขที่แข็งแกร่งกว่าการขาดความสัมพันธ์เพียงอย่างเดียวและมักไม่จำเป็น แม้ว่าจะสามารถใช้ประโยชน์ได้หากรู้ว่ามีไว้ก็ตาม) วิธีการบางอย่าง เช่นกำลังสองน้อยที่สุดโดยทั่วไปสามารถจัดการกับข้อผิดพลาดที่สัมพันธ์กันได้ แม้ว่าโดยทั่วไปแล้วจำเป็นต้องใช้ มีข้อมูลมากขึ้นอย่างมีนัยสำคัญ เว้นแต่ว่ามีการใช้การทำให้เป็นมาตรฐานบางประเภทเพื่อให้โมเดลมีอคติต่อข้อผิดพลาดที่ไม่สัมพันธ์กัน การถดถอยเชิงเส้นแบบเบย์เป็นวิธีทั่วไปในการจัดการปัญหานี้
  • ขาด multicollinearity ที่สมบูรณ์แบบในตัวทำนาย สำหรับวิธีการประมาณค่ากำลังสองน้อยที่สุด แบบมาตรฐาน เมทริกซ์การออกแบบ Xต้องมีอันดับคอลัมน์ เต็ม p ; ความหลากหลาย ที่สมบูรณ์แบบอย่างอื่นมีอยู่ในตัวแปรทำนาย ซึ่งหมายความว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายตั้งแต่สองตัวขึ้นไป ซึ่งอาจเกิดจากการทำซ้ำตัวแปรในข้อมูลโดยไม่ได้ตั้งใจ โดยใช้การแปลงเชิงเส้นของตัวแปรร่วมกับตัวแปรดั้งเดิม (เช่น การวัดอุณหภูมิแบบเดียวกันที่แสดงเป็นฟาเรนไฮต์และเซลเซียส) หรือการรวมเชิงเส้นของตัวแปรหลายตัวในแบบจำลอง เช่นค่าเฉลี่ยของพวกเขา นอกจากนี้ยังสามารถเกิดขึ้นได้หากมีข้อมูลน้อยเกินไปเมื่อเทียบกับจำนวนพารามิเตอร์ที่จะประมาณ (เช่น จุดข้อมูลน้อยกว่าค่าสัมประสิทธิ์การถดถอย) ใกล้การละเมิดสมมติฐานนี้ ซึ่งตัวทำนายมีความสัมพันธ์กันสูงแต่ไม่มีความสัมพันธ์อย่างสมบูรณ์ สามารถลดความแม่นยำของการประมาณค่าพารามิเตอร์ได้ (ดูปัจจัยอัตราเงินเฟ้อผันแปร). ในกรณีของ multicollinearity ที่สมบูรณ์แบบ เวกเตอร์พารามิเตอร์βจะไม่สามารถระบุได้ — ไม่มีวิธีแก้ปัญหาเฉพาะตัว ในกรณีเช่นนี้ สามารถระบุพารามิเตอร์ได้เพียงบางส่วนเท่านั้น (กล่าวคือ ค่าของพวกมันสามารถประมาณได้ภายในสเปซย่อยเชิงเส้นบางส่วนของปริภูมิพารามิเตอร์เต็มR p ) ดูการถดถอยกำลังสองน้อยที่สุดบางส่วน วิธีการสำหรับการปรับโมเดลเชิงเส้นให้พอดีด้วย multicollinearity ได้รับการพัฒนา[5] [6] [7] [8]ซึ่งบางวิธีจำเป็นต้องมีสมมติฐานเพิ่มเติม เช่น "เอฟเฟกต์เบาบาง"—ซึ่งเอฟเฟกต์ส่วนใหญ่นั้นเป็นศูนย์พอดี โปรดทราบว่าอัลกอริธึมแบบวนซ้ำที่มีราคาแพงกว่าในการคำนวณสำหรับการประมาณค่าพารามิเตอร์ เช่นที่ใช้ในตัว แบบเชิงเส้นทั่วไปอย่าประสบปัญหานี้

นอกเหนือจากสมมติฐานเหล่านี้ คุณสมบัติทางสถิติอื่นๆ อีกหลายรายการของข้อมูลมีอิทธิพลอย่างมากต่อประสิทธิภาพของวิธีการประมาณค่าต่างๆ:

  • ความสัมพันธ์ทางสถิติระหว่างเงื่อนไขข้อผิดพลาดและตัวถดถอยมีบทบาทสำคัญในการพิจารณาว่าขั้นตอนการประมาณมีคุณสมบัติการสุ่มตัวอย่างที่ต้องการหรือไม่ เช่น ความเป็นกลางและสม่ำเสมอ
  • การจัดเรียงหรือการแจกแจงความน่าจะเป็นของตัวแปรทำนายxมีอิทธิพลอย่างมากต่อความแม่นยำของการประมาณการของβ การ สุ่มตัวอย่างและการออกแบบการทดลองเป็นฟิลด์ย่อยที่พัฒนาขึ้นอย่างสูงของสถิติ ซึ่งให้คำแนะนำสำหรับการรวบรวมข้อมูลในลักษณะที่จะได้ค่าประมาณที่แม่นยำของβ

การตีความ

ชุดข้อมูลในควอร์เต็ตของ Anscombeได้รับการออกแบบให้มีเส้นถดถอยเชิงเส้นเดียวกันโดยประมาณ (เช่นเดียวกับค่าเฉลี่ยที่เกือบเท่ากัน ส่วนเบี่ยงเบนมาตรฐาน และสหสัมพันธ์) แต่มีความแตกต่างทางกราฟิกอย่างมาก สิ่งนี้แสดงให้เห็นข้อผิดพลาดของการพึ่งพาแบบจำลองที่ติดตั้งไว้เพียงอย่างเดียวเพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปร

แบบจำลองการถดถอยเชิงเส้นแบบพอดีสามารถใช้เพื่อระบุความสัมพันธ์ระหว่างตัวแปรทำนายเดียวx jและตัวแปรตอบสนองyเมื่อตัวแปรทำนายอื่น ๆ ทั้งหมดในแบบจำลอง "คงค่าไว้" โดยเฉพาะอย่างยิ่ง การตีความβ jคือการ เปลี่ยนแปลงที่ คาดหวังในyสำหรับการเปลี่ยนแปลงหนึ่งหน่วยในx jเมื่อตัวแปรร่วมอื่นๆ คงที่—นั่นคือ ค่าที่คาดหวังของอนุพันธ์ย่อยบางส่วนของy เทียบกับx j บางครั้งเรียกว่า เอ ฟเฟกต์พิเศษของx jต่อy. ในทางตรงกันข้ามผลกระทบขอบของx jต่อyสามารถประเมินได้โดยใช้สัมประสิทธิ์สหสัมพันธ์หรือ แบบจำลอง การถดถอยเชิงเส้นอย่างง่ายที่เกี่ยวข้องกับx jถึงyเท่านั้น เอ ฟเฟกต์นี้คืออนุพันธ์ทั้งหมดของ y เทียบกับx j

ต้องใช้ความระมัดระวังเมื่อตีความผลการถดถอย เนื่องจากตัวถดถอยบางตัวอาจไม่อนุญาตให้มีการเปลี่ยนแปลงส่วนเพิ่ม (เช่นตัวแปรจำลองหรือระยะการสกัดกั้น) ในขณะที่ส่วนอื่นๆ ไม่สามารถคงที่ได้ (นึกถึงตัวอย่างจากบทนำ: เป็นไปไม่ได้ เพื่อ "ถือt ฉัน คงที่" และ ในขณะเดียวกันก็เปลี่ยนค่าของti 2 )

เป็นไปได้ว่าเอฟเฟกต์พิเศษนั้นเกือบจะเป็นศูนย์แม้ว่าเอฟเฟกต์ขอบจะมากก็ตาม นี่อาจหมายความว่าตัวแปรร่วมอื่นๆ บางส่วนจะเก็บข้อมูลทั้งหมดในx jดังนั้นเมื่อตัวแปรนั้นอยู่ในแบบจำลอง จะไม่มีส่วนสนับสนุนของx jต่อการเปลี่ยนแปลงในy ในทางกลับกัน เอฟเฟกต์พิเศษของx jอาจมีขนาดใหญ่ในขณะที่เอฟเฟกต์ระยะขอบนั้นเกือบจะเป็นศูนย์ สิ่งนี้จะเกิดขึ้นหากโควาเรียตอื่นๆ อธิบายความแปรผันของyอย่างมาก แต่ส่วนใหญ่อธิบายการแปรผันในลักษณะที่ประกอบกับสิ่งที่x j จับ ได้ ในกรณีนี้ รวมทั้งตัวแปรอื่นๆ ในตัวแบบจะลดส่วนของความแปรปรวนของyที่ไม่เกี่ยวข้องกับx j จึงเป็นการเพิ่มความสัมพันธ์ที่ ชัดเจน กับx j

ความหมายของนิพจน์ "คงค้าง" อาจขึ้นอยู่กับว่าค่าของตัวแปรทำนายเกิดขึ้นอย่างไร หากผู้ทดลองตั้งค่าของตัวแปรทำนายโดยตรงตามการออกแบบการศึกษา การเปรียบเทียบที่น่าสนใจอาจสอดคล้องกับการเปรียบเทียบระหว่างหน่วยที่ผู้ทดลอง "คงค่าตัวแปรพยากรณ์ไว้" อีกทางหนึ่ง นิพจน์ "คงค้าง" สามารถอ้างถึงการเลือกที่เกิดขึ้นในบริบทของการวิเคราะห์ข้อมูล ในกรณีนี้ เรา "คงค่าตัวแปรไว้" โดยจำกัดความสนใจของเราไว้ที่ชุดย่อยของข้อมูลที่เกิดขึ้นโดยมีค่าร่วมกันสำหรับตัวแปรทำนายที่กำหนด นี่เป็นการตีความเพียงอย่างเดียวของ "คงค้าง" ที่สามารถใช้ในการศึกษาเชิงสังเกตได้

แนวคิดเรื่อง "เอฟเฟกต์พิเศษ" นั้นน่าดึงดูดใจเมื่อศึกษาระบบที่ซับซ้อนซึ่งมีองค์ประกอบที่เกี่ยวข้องกันหลายตัวมีอิทธิพลต่อตัวแปรการตอบสนอง ในบางกรณี มันสามารถตีความได้อย่างแท้จริงว่าเป็นผลเชิงสาเหตุของการแทรกแซงที่เชื่อมโยงกับค่าของตัวแปรทำนาย อย่างไรก็ตาม มีการถกเถียงกันว่าในหลายกรณี การวิเคราะห์การถดถอยพหุคูณล้มเหลวในการชี้แจงความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนอง เมื่อตัวทำนายมีความสัมพันธ์ซึ่งกันและกันและไม่ได้กำหนดไว้ตามการออกแบบการศึกษา [9]

ส่วนขยาย

ส่วนขยายของการถดถอยเชิงเส้นจำนวนมากได้รับการพัฒนา ซึ่งช่วยให้สมมติฐานบางส่วนหรือทั้งหมดที่เป็นรากฐานของแบบจำลองพื้นฐานผ่อนคลายลง

การถดถอยเชิงเส้นแบบง่ายและพหุคูณ

ตัวอย่างของการถดถอยเชิงเส้นอย่างง่ายซึ่งมีตัวแปรอิสระหนึ่งตัว

กรณีที่ง่ายที่สุดของตัวแปรทำนายสเกลาร์ ตัวเดียว xและตัวแปรตอบสนองสเกลาร์ตัวเดียวyเรียกว่าการถดถอยเชิงเส้นอย่างง่าย การขยายไปยังตัวแปรทำนายค่า หลายตัวและ/หรือค่า เวกเตอร์ (แสดงด้วย X ใหญ่ ) เรียกว่าการถดถอยเชิงเส้น หลายตัวแปร หรือที่เรียกว่าการถดถอยเชิงเส้นหลายตัวแปร (อย่าสับสนกับการถดถอยเชิงเส้นหลายตัวแปร [10] )

การถดถอยเชิงเส้นพหุคูณเป็นการสรุปทั่วไปของการถดถอยเชิงเส้นอย่างง่ายในกรณีของตัวแปรอิสระมากกว่าหนึ่งตัว และกรณีพิเศษของตัวแบบเชิงเส้นทั่วไปที่จำกัดให้ตัวแปรตามหนึ่งตัวแปร ตัวแบบพื้นฐานสำหรับการถดถอยเชิงเส้นพหุคูณคือ

สำหรับการสังเกตแต่ละครั้งi = 1, ... , n .

ในสูตรข้างต้น เราจะพิจารณาnการสังเกตของตัวแปรตามหนึ่งตัวแปรและตัวแปรอิสระp ดังนั้นY iคือการ สังเกตที่ iของตัวแปรตามX ijคือการสังเกตที่ i ของตัวแปรอิสระที่j, j = 1 , 2, ... , p ค่าβ jแทนค่าพารามิเตอร์ที่จะประมาณค่า และε iคือค่าความผิดพลาดปกติที่แจกแจงกันอย่างอิสระ ที่ i th

ในการถดถอยเชิงเส้นพหุหลายตัวแปรทั่วๆ ไป มีสมการหนึ่งของรูปแบบข้างต้นสำหรับ ตัวแปรตาม m > 1 ตัวแต่ละตัวที่ใช้ชุดตัวแปรอธิบายชุดเดียวกัน และด้วยเหตุนี้จึงประมาณค่ากันพร้อมกัน:

สำหรับการสังเกตทั้งหมดที่จัดทำดัชนีเป็นi = 1, ... , nและสำหรับตัวแปรตามทั้งหมดที่จัดทำดัชนีเป็นj = 1, ... , m

ตัวแบบการถดถอยในโลกแห่งความเป็นจริงเกือบทั้งหมดเกี่ยวข้องกับตัวทำนายหลายตัว และคำอธิบายพื้นฐานของการถดถอยเชิงเส้นมักจะใช้วลีในแง่ของตัวแบบการถดถอยพหุคูณ อย่างไรก็ตาม โปรดทราบว่าในกรณีเหล่านี้ ตัวแปรตอบสนองyยังคงเป็นสเกลาร์ อีกคำหนึ่งการถดถอยเชิงเส้นพหุตัวแปรหมายถึงกรณีที่yเป็นเวกเตอร์ นั่นคือ เหมือนกับการถดถอยเชิงเส้นทั่วไป

ตัวแบบเชิงเส้นทั่วไป

โมเดลเชิงเส้นทั่วไปพิจารณาสถานการณ์เมื่อตัวแปรตอบสนองไม่ใช่สเกลาร์ (สำหรับการสังเกตแต่ละครั้ง) แต่เป็นเวกเตอร์y ผม ลิเนียลิเนียตามเงื่อนไขของยังคงสันนิษฐาน โดยมีเมทริกซ์Bแทนที่เวกเตอร์βของแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก แอนะล็อกหลายตัวแปรของกำลังสองน้อยที่สุดสามัญ (OLS) และกำลังสองน้อยที่สุดทั่วไป (GLS) ได้รับการพัฒนา "แบบจำลองเชิงเส้นทั่วไป" เรียกอีกอย่างว่า "แบบจำลองเชิงเส้นหลายตัวแปร" สิ่งเหล่านี้ไม่เหมือนกับแบบจำลองเชิงเส้นหลายตัวแปร (เรียกอีกอย่างว่า "แบบจำลองเชิงเส้นหลายตัวแปร")

โมเดลที่แตกต่างกัน

มีการสร้างแบบจำลองต่างๆ ขึ้นเพื่อให้ เกิดความ แตกต่างกัน กล่าวคือ ข้อผิดพลาดสำหรับตัวแปรตอบสนองที่แตกต่างกันอาจมีความแปรปรวน ต่าง กัน ตัวอย่างเช่นค่ากำลังสองน้อยที่สุดที่ถ่วงน้ำหนักเป็นวิธีการประมาณแบบจำลองการถดถอยเชิงเส้น เมื่อตัวแปรตอบสนองอาจมีค่าความแปรปรวนของข้อผิดพลาดต่างกัน อาจมีข้อผิดพลาดที่สัมพันธ์กัน (ดูเพิ่มเติมกำลังสองน้อยที่สุดเชิงเส้นแบบถ่วงน้ำหนักและกำลังสองน้อยที่สุดทั่วไป ) ข้อผิดพลาดมาตรฐานที่สอดคล้องแบบ Heteroscedasticityเป็นวิธีการที่ได้รับการปรับปรุงสำหรับใช้กับข้อผิดพลาดที่ไม่สัมพันธ์กันแต่อาจต่างกันได้

ตัวแบบเชิงเส้นทั่วไป

โมเดลเชิงเส้นตรงทั่วไป (GLM) เป็นเฟรมเวิร์กสำหรับการสร้างแบบจำลองตัวแปรตอบสนองที่มีขอบเขตหรือไม่ต่อเนื่อง ใช้สิ่งนี้ ตัวอย่างเช่น:

  • เมื่อสร้างแบบจำลองปริมาณบวก (เช่น ราคาหรือจำนวนประชากร) ที่แปรผันตามมาตราส่วนขนาดใหญ่ ซึ่งอธิบายได้ดีกว่าโดยใช้การแจกแจงแบบเบ้เช่น การแจกแจงแบบปกติหรือแบบปัวซอง (แม้ว่า GLM จะไม่ใช้สำหรับข้อมูลบันทึกปกติ แต่เป็นการตอบกลับแทน ตัวแปรถูกแปลงอย่างง่าย ๆ โดยใช้ฟังก์ชันลอการิทึม);
  • เมื่อสร้างแบบจำลองข้อมูลหมวดหมู่เช่น การเลือกผู้สมัครรับเลือกตั้งในการเลือกตั้ง (ซึ่งอธิบายได้ดีกว่าโดยใช้การ แจกแจงแบบ เบอร์นู ลลี / การ แจกแจงแบบทวินามสำหรับตัวเลือกไบนารี หรือการแจกแจงตามหมวดหมู่ / การ แจกแจงพหุ นามสำหรับตัวเลือก แบบหลายทาง) โดยจะมี จำนวนตัวเลือกที่แน่นอนซึ่งไม่สามารถเรียงลำดับอย่างมีความหมายได้
  • เมื่อสร้างแบบจำลองข้อมูลลำดับเช่น การให้คะแนนในระดับตั้งแต่ 0 ถึง 5 โดยสามารถเรียงลำดับผลลัพธ์ที่แตกต่างกันได้ แต่ปริมาณนั้นอาจไม่มีความหมายที่แน่นอน (เช่น การให้คะแนน 4 อาจไม่ "ดีสองเท่า" ในวัตถุประสงค์ใดๆ ความรู้สึกเป็นคะแนน 2 แต่เพียงบ่งบอกว่าดีกว่า 2 หรือ 3 แต่ไม่ดีเท่ากับ 5)

ตัวแบบเชิงเส้นทั่วไปอนุญาตให้ใช้ ฟังก์ชันลิงก์ตามอำเภอใจ, g , ที่เกี่ยวข้องกับค่าเฉลี่ยของตัวแปรตอบสนองกับตัวทำนาย:. ฟังก์ชันลิงก์มักเกี่ยวข้องกับการกระจายของการตอบสนอง และโดยเฉพาะอย่างยิ่ง ฟังก์ชันลิงก์มักมีผลในการเปลี่ยนรูประหว่างช่วงของตัวทำนายเชิงเส้นและช่วงของตัวแปรตอบสนอง

ตัวอย่างทั่วไปของ GLM ได้แก่:

ตัว แบบดัชนีเดี่ยว[ จำเป็นต้องชี้แจง ]ยอมให้มีระดับความไม่เชิงเส้นในความสัมพันธ์ระหว่างxกับy ในระดับ หนึ่ง ในขณะที่ยังคงบทบาทศูนย์กลางของตัวทำนายเชิงเส้นβxเช่นเดียวกับในแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก ภายใต้เงื่อนไขบางประการ เพียงใช้ OLS กับข้อมูลจากแบบจำลองดัชนีเดียวจะประมาณค่าβได้อย่างสม่ำเสมอจนถึงค่าคงที่ตามสัดส่วน (11)

แบบจำลองเชิงเส้นแบบลำดับชั้น

แบบจำลองเชิงเส้นแบบลำดับชั้น (หรือการถดถอยหลายระดับ ) จัดระเบียบข้อมูลเป็นลำดับชั้นของการถดถอย เช่น โดยที่AจะถดถอยในBและBจะถดถอยในC มักใช้ในกรณีที่ตัวแปรที่น่าสนใจมีโครงสร้างแบบลำดับชั้นตามธรรมชาติ เช่น ในสถิติการศึกษา โดยที่นักเรียนจะซ้อนกันในห้องเรียน ห้องเรียนซ้อนกันในโรงเรียน และโรงเรียนซ้อนกันอยู่ในกลุ่มการบริหารบางกลุ่ม เช่น เขตการศึกษา ตัวแปรการตอบสนองอาจเป็นตัววัดผลสัมฤทธิ์ของนักเรียน เช่น คะแนนการทดสอบ และตัวแปรร่วมต่างๆ จะถูกรวบรวมในระดับห้องเรียน โรงเรียน และเขตโรงเรียน

ข้อผิดพลาดในตัวแปร

แบบจำลองข้อผิดพลาดในตัวแปร (หรือ "แบบจำลองข้อผิดพลาดในการวัด") ขยายแบบจำลองการถดถอยเชิงเส้นแบบเดิมเพื่อให้ สังเกตตัวแปรตัวทำนายX ได้โดยมีข้อผิดพลาด ข้อผิดพลาดนี้ทำให้ตัวประมาณค่ามาตรฐานของβมีความเอนเอียง โดยทั่วไป รูปแบบของอคติคือการลดทอน ซึ่งหมายความว่าผลกระทบจะเอนเอียงไปทางศูนย์

อื่นๆ

  • ในทฤษฎี Dempster–Shaferหรือฟังก์ชันความเชื่อเชิงเส้นโดยเฉพาะ ตัวแบบการถดถอยเชิงเส้นอาจแสดงเป็นเมทริกซ์กวาดบางส่วน ซึ่งสามารถนำมารวมกับเมทริกซ์ที่คล้ายกันซึ่งแทนการสังเกตและการอนุมานแบบปกติอื่นๆ และสมการสถานะ การรวมกันของเมทริกซ์แบบกวาดหรือแบบไม่กวาดเป็นวิธีการทางเลือกสำหรับการประมาณแบบจำลองการถดถอยเชิงเส้น

วิธีการประมาณค่า

มีการพัฒนาขั้นตอนจำนวนมากสำหรับ การประมาณค่า พารามิเตอร์และการอนุมานในการถดถอยเชิงเส้น วิธีการเหล่านี้แตกต่างกันในด้านความเรียบง่ายในการคำนวณของอัลกอริธึม การมีอยู่ของโซลูชันแบบปิด ความทนทานเมื่อเทียบกับการแจกแจงแบบหนักหน่วง และสมมติฐานทางทฤษฎีที่จำเป็นในการตรวจสอบคุณสมบัติทางสถิติที่ต้องการ เช่น ความสม่ำเสมอและประสิทธิภาพ เชิง ซีม โทติก

เทคนิคการประมาณค่าทั่วไปบางส่วนสำหรับการถดถอยเชิงเส้น สรุปได้ดังนี้

การประมาณค่ากำลังสองน้อยที่สุดและเทคนิคที่เกี่ยวข้อง

ภาพประกอบของ ฟรานซิส กัลตันในปี ค.ศ. 1886 [12]เกี่ยวกับความสัมพันธ์ระหว่างความสูงของผู้ใหญ่และผู้ปกครอง การสังเกตว่าส่วนสูงของเด็กที่โตแล้วมักจะเบี่ยงเบนจากความสูงเฉลี่ยน้อยกว่าที่ผู้ปกครองเสนอให้แนวคิดเรื่อง " การถดถอยไปสู่ค่าเฉลี่ย " ทำให้การถดถอยเป็นชื่อ "ตำแหน่งของจุดสัมผัสแนวนอน" ที่ลากผ่านจุดซ้ายสุดและขวาสุดบนวงรี (ซึ่งเป็นเส้นโค้งระดับของการแจกแจงแบบปกติแบบสองตัวแปร ที่ ประเมินจากข้อมูล) คือOLSค่าประมาณการถดถอยของความสูงของผู้ปกครองต่อความสูงของเด็ก ในขณะที่ "ตำแหน่งของจุดสัมผัสแนวตั้ง" คือค่าประมาณของ OLS ของการถดถอยของความสูงของเด็กตามความสูงของผู้ปกครอง แกนหลักของวงรีคือค่าประมาณTLS

สมมติว่าตัวแปรอิสระคือและพารามิเตอร์ของโมเดลคือ, แล้วคำทำนายของตัวแบบจะเป็น

.

ถ้าขยายไปถึงแล้วจะกลายเป็นผลคูณดอทของพารามิเตอร์และตัวแปรอิสระเช่น

.

ในการตั้งค่าค่ากำลังสองน้อยที่สุด พารามิเตอร์ที่เหมาะสมที่สุดถูกกำหนดให้มีผลรวมของการสูญเสียกำลังสองเฉลี่ยน้อยที่สุด:

ตอนนี้ใส่ตัวแปรอิสระและตัวแปรตามในเมทริกซ์และตามลำดับ ฟังก์ชันการสูญเสียสามารถเขียนใหม่เป็น:

เนื่องจากการสูญเสียจะนูนออกมา สารละลายที่เหมาะสมจะอยู่ที่ศูนย์การไล่ระดับสี การไล่ระดับของฟังก์ชันการสูญเสียคือ (โดยใช้แบบแผนการจัดวางตัว ส่วน ):

การตั้งค่าการไล่ระดับสีเป็นศูนย์จะสร้างพารามิเตอร์ที่เหมาะสมที่สุด:

หมายเหตุ:เพื่อพิสูจน์ว่าที่ได้มานั้นเป็นค่าขั้นต่ำในท้องถิ่น เราต้องแยกความแตกต่างอีกครั้งเพื่อให้ได้เมทริกซ์เฮสเซียนและแสดงว่ามันเป็นค่าที่แน่นอนในเชิงบวก นี้จัดทำโดยทฤษฎีบทเกาส์–มาร์กอ

วิธีการ กำลังสองน้อยที่สุดเชิงเส้นได้แก่ :

การประมาณค่าความน่าจะเป็นสูงสุดและเทคนิคที่เกี่ยวข้อง

เทคนิคการประมาณค่าอื่นๆ

การเปรียบเทียบตัวประมาณ Theil–Sen (สีดำ) และการถดถอยเชิงเส้นอย่างง่าย (สีน้ำเงิน) สำหรับชุดของจุดที่มีค่าผิดปกติ
  • การถดถอยเชิงเส้นแบบเบย์ใช้กรอบการทำงานของสถิติแบบเบย์กับการถดถอยเชิงเส้น (โปรดดูการถดถอยเชิงเส้นพหุหลายตัวแปรแบบเบย์ด้วย) โดยเฉพาะอย่างยิ่ง สัมประสิทธิ์การถดถอย β จะถือว่าเป็นตัวแปรสุ่มที่ มี การแจกแจงก่อนหน้าที่ระบุ การแจกแจงก่อนหน้าสามารถเอนเอียงคำตอบของสัมประสิทธิ์การถดถอย ในลักษณะที่คล้ายกับ (แต่ทั่วไปมากกว่า)การถดถอยแนวสันหรือแบบบ่วงบาศ นอกจากนี้ กระบวนการประมาณค่าแบบเบย์ไม่ได้สร้างการประมาณแบบจุดเดียวสำหรับค่าที่ "ดีที่สุด" ของสัมประสิทธิ์การถดถอย แต่เป็นการกระจายส่วนหลัง ทั้งหมดอธิบายความไม่แน่นอนโดยรอบปริมาณอย่างสมบูรณ์ สามารถใช้เพื่อประมาณค่าสัมประสิทธิ์ที่ "ดีที่สุด" โดยใช้ค่าเฉลี่ย โหมด มัธยฐาน ควอนไทล์ใดๆ (ดูการถดถอย ควอนไท ล์ ) หรือฟังก์ชันอื่นๆ ของการแจกแจงภายหลัง
  • การถดถอยเชิงควอนไทล์มุ่งเน้นไปที่ควอนไทล์แบบมีเงื่อนไขของ yที่ให้ Xมากกว่าค่าเฉลี่ยแบบมีเงื่อนไขของ yที่ให้ X การถดถอยควอนไทล์เชิงเส้นจำลองควอนไทล์แบบมีเงื่อนไขเฉพาะ ตัวอย่างเช่น ค่ามัธยฐานตามเงื่อนไข เป็นฟังก์ชันเชิงเส้น β T xของตัวทำนาย
  • แบบจำลองผสมถูกใช้อย่างกว้างขวางในการวิเคราะห์ความสัมพันธ์การถดถอยเชิงเส้นที่เกี่ยวข้องกับข้อมูลที่ไม่ขึ้นต่อกัน เมื่อการขึ้นต่อกันมีโครงสร้างที่รู้จัก การใช้งานทั่วไปของแบบจำลองผสมรวมถึงการวิเคราะห์ข้อมูลที่เกี่ยวข้องกับการวัดซ้ำ เช่น ข้อมูลตามยาว หรือข้อมูลที่ได้จากการสุ่มตัวอย่างคลัสเตอร์ โดยทั่วไปแล้วจะพอดีกับ แบบจำลอง พาราเมตริกโดยใช้โอกาสสูงสุดหรือการประมาณค่าแบบเบย์ ในกรณีที่ข้อผิดพลาดถูกจำลองเป็นตัวแปรสุ่มปกติ จะมีความสัมพันธ์อย่างใกล้ชิดระหว่างแบบจำลองแบบผสมและกำลังสองน้อยที่สุดทั่วไป [19] การประเมินผลกระทบคงที่เป็นแนวทางทางเลือกในการวิเคราะห์ข้อมูลประเภทนี้
  • Principal component regression (PCR) [7] [8]ใช้เมื่อจำนวนของตัวแปรทำนายมีมาก หรือเมื่อมีความสัมพันธ์ที่ชัดเจนระหว่างตัวแปรทำนาย ขั้นตอนสองขั้นตอนนี้จะลดตัวแปรทำนายโดยใช้การวิเคราะห์องค์ประกอบหลักก่อน จากนั้นจึงใช้ตัวแปรที่ลดลงในรูปแบบการถดถอย OLS แม้ว่าจะใช้งานได้ดีในทางปฏิบัติ แต่ก็ไม่มีเหตุผลทางทฤษฎีทั่วไปที่ฟังก์ชันเชิงเส้นที่ให้ข้อมูลมากที่สุดของตัวแปรทำนายควรอยู่ในองค์ประกอบหลักที่โดดเด่นของการแจกแจงตัวแปรหลายตัวแปรของตัวแปรทำนาย การถดถอยกำลังสองน้อยที่สุดบางส่วนเป็นการขยายวิธี PCR ซึ่งไม่ได้รับผลกระทบจากข้อบกพร่องดังกล่าว
  • การถดถอยมุมน้อยที่สุด[6]เป็นกระบวนการประมาณค่าสำหรับตัวแบบการถดถอยเชิงเส้นที่พัฒนาขึ้นเพื่อจัดการกับเวกเตอร์โควาริเอตมิติสูง อาจมีค่าความแปรปรวนร่วมมากกว่าการสังเกต
  • เครื่องประมาณค่า Theil–Sen เป็นเทคนิค การประมาณที่มีประสิทธิภาพอย่างง่ายซึ่งเลือกความชันของเส้นพอดีให้เป็นค่ามัธยฐานของความชันของเส้นผ่านจุดตัวอย่างคู่ มันมีคุณสมบัติประสิทธิภาพทางสถิติที่คล้ายคลึงกันกับการถดถอยเชิงเส้นอย่างง่าย แต่มีความไวต่อค่าผิดปกติ น้อยกว่า มาก (20)
  • เทคนิคการประมาณค่าที่มีประสิทธิภาพอื่นๆ รวม ถึง แนวทางเฉลี่ยที่ตัดด้วย α [ ต้องการการอ้างอิง ]และการแนะนำตัวประมาณค่า L-, M-, S- และ R [ ต้องการการอ้างอิง ]

แอปพลิเคชัน

การถดถอยเชิงเส้นใช้กันอย่างแพร่หลายในด้านชีววิทยา พฤติกรรมและสังคมศาสตร์ เพื่ออธิบายความสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปร ได้รับการจัดอันดับให้เป็นหนึ่งในเครื่องมือที่สำคัญที่สุดที่ใช้ในสาขาวิชาเหล่านี้

เส้นแนวโน้ม

เส้นแนวโน้มแสดงถึงแนวโน้ม การเคลื่อนไหวระยะยาวใน ข้อมูล อนุกรมเวลาหลังจากพิจารณาส่วนประกอบอื่นๆ แล้ว มันบอกว่าชุดข้อมูลเฉพาะ (เช่น GDP ราคาน้ำมัน หรือราคาหุ้น) เพิ่มขึ้นหรือลดลงในช่วงเวลาหนึ่ง เส้นแนวโน้มสามารถถูกวาดได้ด้วยตาเปล่าผ่านชุดของจุดข้อมูล แต่ตำแหน่งและความชันของเส้นแนวโน้มจะถูกคำนวณโดยใช้เทคนิคทางสถิติ เช่น การถดถอยเชิงเส้น เส้นแนวโน้มมักเป็นเส้นตรง แม้ว่ารูปแบบบางรูปแบบจะใช้พหุนามที่มีระดับที่สูงกว่า ทั้งนี้ขึ้นอยู่กับระดับความโค้งที่ต้องการในเส้น

เส้นแนวโน้มบางครั้งใช้ในการวิเคราะห์ธุรกิจเพื่อแสดงการเปลี่ยนแปลงของข้อมูลเมื่อเวลาผ่านไป มีข้อดีคือเรียบง่าย เส้นแนวโน้มมักใช้เพื่อโต้แย้งว่าการกระทำหรือเหตุการณ์เฉพาะ (เช่น การฝึกอบรม หรือแคมเปญโฆษณา) ทำให้เกิดการเปลี่ยนแปลงที่สังเกตได้ในช่วงเวลาหนึ่ง นี่เป็นเทคนิคง่ายๆ และไม่ต้องการกลุ่มควบคุม การออกแบบการทดลอง หรือเทคนิคการวิเคราะห์ที่ซับซ้อน อย่างไรก็ตาม ยังขาดความถูกต้องทางวิทยาศาสตร์ในกรณีที่การเปลี่ยนแปลงอื่นๆ ที่อาจเกิดขึ้นอาจส่งผลต่อข้อมูล

ระบาดวิทยา

หลักฐานเบื้องต้นเกี่ยวกับการสูบบุหรี่ต่อการตายและการเจ็บป่วยมาจากการศึกษาเชิงสังเกตโดยใช้การวิเคราะห์การถดถอย เพื่อลดความสัมพันธ์ที่หลอกลวงเมื่อวิเคราะห์ข้อมูลเชิงสังเกต นักวิจัยมักจะรวมตัวแปรหลายตัวในแบบจำลองการถดถอยของพวกเขานอกเหนือจากตัวแปรที่น่าสนใจหลัก ตัวอย่างเช่น ในรูปแบบการถดถอยที่การสูบบุหรี่เป็นตัวแปรอิสระของความสนใจหลัก และตัวแปรตามคืออายุขัยที่วัดเป็นปี นักวิจัยอาจรวมการศึกษาและรายได้เป็นตัวแปรอิสระเพิ่มเติม เพื่อให้แน่ใจว่าผลกระทบที่สังเกตได้ของการสูบบุหรี่ต่ออายุขัย ไม่ได้เกิดจากปัจจัยทางเศรษฐกิจและสังคม อื่นๆ เหล่านั้น. อย่างไรก็ตาม เป็นไปไม่ได้ที่จะรวม ตัวแปรที่ก่อให้เกิดความ สับสน ที่เป็นไปได้ทั้งหมด ในการวิเคราะห์เชิงประจักษ์ ตัวอย่างเช่น ยีนสมมุติฐานอาจเพิ่มอัตราการตายและทำให้คนสูบบุหรี่มากขึ้นด้วย ด้วยเหตุผลนี้ การทดลองแบบสุ่มที่มีกลุ่มควบคุมจึงมักจะสามารถสร้างหลักฐานที่น่าสนใจของความสัมพันธ์เชิงสาเหตุได้มากกว่าที่จะได้รับโดยใช้การวิเคราะห์การถดถอยของข้อมูลเชิงสังเกต เมื่อการทดลองควบคุมไม่สามารถทำได้ อาจมีการใช้ตัวแปรของการวิเคราะห์การถดถอย เช่น การถดถอยของตัวแปรเครื่องมือเพื่อพยายามประมาณความสัมพันธ์เชิงสาเหตุจากข้อมูลเชิงสังเกต

การเงิน

แบบจำลอง การกำหนดราคาสินทรัพย์ทุนใช้การถดถอยเชิงเส้นรวมถึงแนวคิดของเบต้าสำหรับการวิเคราะห์และหาปริมาณความเสี่ยงอย่างเป็นระบบของการลงทุน ซึ่งมาจากสัมประสิทธิ์เบต้าของแบบจำลองการถดถอยเชิงเส้นตรงที่เกี่ยวข้องกับผลตอบแทนจากการลงทุนกับผลตอบแทนจากสินทรัพย์เสี่ยงทั้งหมด

เศรษฐศาสตร์

การถดถอยเชิงเส้นเป็นเครื่องมือเชิงประจักษ์ที่โดดเด่นในด้านเศรษฐศาสตร์ ตัวอย่างเช่น ใช้เพื่อคาดการณ์ การใช้จ่ายเพื่อ การบริโภค[21] การ ใช้จ่ายเพื่อการลงทุนคงที่ การลงทุนสินค้าคงคลัง การ ซื้อการ ส่งออกของประเทศ[ 22]การใช้จ่ายในการนำเข้า [ 22]ความต้องการถือสินทรัพย์สภาพคล่อง [ 23] ความต้องการแรงงาน , (24)และการจัดหาแรงงาน [24]

วิทยาศาสตร์สิ่งแวดล้อม

การถดถอยเชิงเส้นพบการประยุกต์ใช้ในการประยุกต์ใช้ทางวิทยาศาสตร์สิ่งแวดล้อมที่หลากหลาย ในแคนาดา โครงการตรวจสอบผลกระทบสิ่งแวดล้อมใช้การวิเคราะห์ทางสถิติเกี่ยวกับการสำรวจปลาและสัตว์หน้าดินเพื่อวัดผลกระทบของโรงสีเยื่อกระดาษหรือน้ำทิ้งจากเหมืองโลหะต่อระบบนิเวศทางน้ำ [25]

การเรียนรู้ของเครื่อง

การถดถอยเชิงเส้นมีบทบาทสำคัญในสาขาย่อยของปัญญาประดิษฐ์ที่เรียกว่าการเรียนรู้ของ เครื่อง อัลกอริธึมการถดถอยเชิงเส้นเป็นหนึ่งใน อัลกอริธึม แมชชีนเลิร์นนิงขั้นพื้นฐานที่มีการควบคุมดูแลเนื่องจากความเรียบง่ายสัมพัทธ์และคุณสมบัติที่รู้จักกันดี (26)

ประวัติ

การถดถอยเชิงเส้นกำลังสองน้อยที่สุด เพื่อค้นหาความพอดีเชิงเส้นคร่าวๆ ที่ดีกับชุดของคะแนนโดยLegendre (1805) และGauss (1809) สำหรับการทำนายการเคลื่อนที่ของดาวเคราะห์ Queteletมีหน้าที่รับผิดชอบในการทำให้ขั้นตอนเป็นที่รู้จักและนำไปใช้อย่างกว้างขวางในสังคมศาสตร์ [27]

ดูเพิ่มเติม

อ้างอิง

การอ้างอิง

  1. ^ เดวิด เอ. ฟรีดแมน (2009). แบบจำลองทางสถิติ: ทฤษฎีและการปฏิบัติ . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์ . หน้า 26. สมการถดถอยอย่างง่ายมีจุดตัดและตัวแปรอธิบายที่มีค่าสัมประสิทธิ์ความชันอยู่ทางด้านขวามือ การถดถอยพหุคูณ e ทางขวามือ แต่ละอันมีค่าสัมประสิทธิ์ความชันเป็นของตัวเอง
  2. เรนเชอร์ อัลวิน ซี.; Christensen, William F. (2012), "Chapter 10, Multivariate regression – Section 10.1, Introduction", Methods of Multivariate Analysis , Wiley Series in Probability and Statistics, ฉบับที่ 709 (ฉบับที่ 3), John Wiley & Sons, p. 19, ISBN 9781118391679.
  3. ฮิลารี แอล. ซีล (1967) "พัฒนาการทางประวัติศาสตร์ของแบบจำลองเชิงเส้นเกาส์". ไบโอเมท ริก้า . 54 (1/2): 1–24. ดอย : 10.1093/ไบโอเมท/54.1-2.1 . จ สท. 2333849 . 
  4. ^ Yan, Xin (2009), การวิเคราะห์การถดถอยเชิงเส้น: ทฤษฎีและคอมพิวเตอร์ , World Scientific, หน้า 1–2, ISBN 9789812834119, การวิเคราะห์การถดถอย ... น่าจะเป็นหนึ่งในหัวข้อที่เก่าแก่ที่สุดในสถิติทางคณิตศาสตร์ย้อนหลังไปเมื่อประมาณสองร้อยปีที่แล้ว รูปแบบแรกสุดของการถดถอยเชิงเส้นคือวิธีกำลังสองน้อยที่สุด ซึ่งเผยแพร่โดย Legendre ในปี 1805 และโดย Gauss ในปี 1809 ... Legendre และ Gauss ต่างก็ใช้วิธีการนี้กับปัญหาในการกำหนด จากการสังเกตทางดาราศาสตร์ วงโคจรของวัตถุ เกี่ยวกับดวงอาทิตย์
  5. อรรถเป็น ทิบชีรานี, โรเบิร์ต (1996). "การถดถอยและการเลือกโดยใช้ Lasso" วารสารราชสมาคมสถิติ ชุด บี . 58 (1): 267–288. JSTOR 2346178 . 
  6. อรรถเป็น เอฟรอน แบรดลีย์; เฮสตี้, เทรเวอร์; จอห์นสโตน, เอียน; ติบชิรานี, โรเบิร์ต (2004). "การถดถอยมุมต่ำสุด". พงศาวดารของสถิติ . 32 (2): 407–451. arXiv : math/0406456 . ดอย : 10.1214/009053604000000067 . จ สท. 3448465 . 
  7. อรรถเป็น ฮอว์กินส์ ดักลาส เอ็ม. (1973) "ในการตรวจสอบการถดถอยทางเลือกโดยการวิเคราะห์องค์ประกอบหลัก". วารสารราชสมาคมสถิติ แบบ ซี . 22 (3): 275–286. จ สท. 2346776 . 
  8. อรรถเป็น Jolliffe, Ian T. (1982). "หมายเหตุเกี่ยวกับการใช้องค์ประกอบหลักในการถดถอย". วารสารราชสมาคมสถิติ แบบ ซี . 31 (3): 300–303. JSTOR 2348005 . 
  9. เบิร์ก, ริชาร์ด เอ. (2007). "การวิเคราะห์การถดถอย: คำติชมเชิงสร้างสรรค์". การพิจารณาคดีอาญา 32 (3): 301–302. ดอย : 10.1177/0734016807304871 .
  10. อีดัลโก, เบอร์ธา; กู๊ดแมน, เมโลดี้ (2012-11-15). "หลายตัวแปรหรือการถดถอยหลายตัวแปร?" . วารสารสาธารณสุขอเมริกัน . 103 (1): 39–40. ดอย : 10.2105/AJPH.2012.300897 . ISSN 0090-0036 . PMC 3518362 . PMID 23153131 .   
  11. บริลลิงเจอร์, เดวิด อาร์. (1977). "การระบุระบบอนุกรมเวลาแบบไม่เชิงเส้นเฉพาะ". ไบโอเมท ริก้า . 64 (3): 509–515. ดอย : 10.1093/biomet/64.3.509 . จ สท. 2345326 . 
  12. กัลตัน, ฟรานซิส (1886) "ถดถอยสู่ความธรรมดาในสัดส่วนทางพันธุกรรม" . วารสารสถาบันมานุษยวิทยาแห่งบริเตนใหญ่และไอร์แลนด์ . 15 : 246–263. ดอย : 10.2307/2841583 . ISSN 0959-5295 . 
  13. ^ มีเหตุมีผล เคนเนธ แอล.; ลิตเติ้ล, ร็อดเดอริก เจเอ; เทย์เลอร์, เจเรมี เอ็มจี (1989). "การสร้างแบบจำลองทางสถิติที่แข็งแกร่งโดยใช้การแจกแจงแบบ t" (PDF ) วารสารสมาคมสถิติอเมริกัน . 84 (408): 881–896. ดอย : 10.2307/2290063 . JSTOR 2290063 .  
  14. สวินเดล, เบนี เอฟ. (1981). "ภาพเรขาคณิตของการถดถอยของสันเขา". นักสถิติชาวอเมริกัน . 35 (1): 12–15. ดอย : 10.2307/268357 . จ สท. 2683577 . 
  15. ^ เดรเปอร์ นอร์แมน อาร์.; ฟาน นอสแตรนด์; อาร์ เครก (1979) "Ridge Regression and James-Stein Estimation: Review and Comments". เทคโน เมทริก . 21 (4): 451–466. ดอย : 10.2307/1268284 . จ สท. 1268284 . 
  16. ^ Hoerl อาเธอร์ อี.; เคนนาร์ด, โรเบิร์ต ดับเบิลยู.; ฮอร์ล, โรเจอร์ ดับเบิลยู. (1985). "การใช้งานจริงของการถดถอยของสันเขา: ความท้าทายที่เจอ". วารสารราชสมาคมสถิติ แบบ ซี . 34 (2): 114–120. จ สท. 2347363 . 
  17. ^ Narula, Subhash C.; เวลลิงตัน, จอห์น เอฟ. (1982). "ผลรวมขั้นต่ำของการถดถอยข้อผิดพลาดสัมบูรณ์: การสำรวจที่ทันสมัย" การทบทวนทางสถิติระหว่างประเทศ 50 (3): 317–326. ดอย : 10.2307/1402501 . JSTOR 1402501 . 
  18. ^ สโตน ซีเจ (1975) "ตัวประมาณความน่าจะเป็นสูงสุดแบบปรับได้ของพารามิเตอร์ตำแหน่ง " พงศาวดารของสถิติ . 3 (2): 267–284. ดอย : 10.1214/aos/1176343056 . JSTOR 2958945 . 
  19. ^ โกลด์สตีน, เอช. (1986). "การวิเคราะห์แบบจำลองเชิงเส้นแบบผสมหลายระดับโดยใช้กำลังสองน้อยที่สุดทั่วไปแบบวนซ้ำ" ไบโอเมท ริก้า . 73 (1): 43–56. ดอย : 10.1093/ไบโอเมท/73.1.43 . JSTOR 2336270 . 
  20. ^ Theil, H. (1950). "วิธีคงที่อันดับของการวิเคราะห์การถดถอยเชิงเส้นและพหุนาม I, II, III" เนเดอร์ล. อากาด. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. มร. 0036489 . ; เสน, ปรานาบ กุมาร (1968). "การประมาณค่าสัมประสิทธิ์การถดถอยตามเอกภาพของเคนดัลล์" วารสารสมาคมสถิติอเมริกัน . 63 (324): 1379–1389. ดอย : 10.2307/2285891 . จ สท. 2285891 . มร. 0258201 .  .
  21. ดีตัน, แองกัส (1992). เข้าใจ การบริโภค สำนักพิมพ์มหาวิทยาลัยอ็อกซ์ฟอร์ด. ISBN 978-0-19-828824-4.
  22. อรรถเป็น ครุกแมน, พอล อาร์. ; ออบสท์เฟลด์, ม. ; เมลิทซ์, มาร์ค เจ. (2012). เศรษฐศาสตร์ระหว่างประเทศ: ทฤษฎีและนโยบาย (ฉบับที่ 9) ฮาร์โลว์: เพียร์สัน. ISBN 9780273754091.
  23. ^ เลดเลอร์, เดวิด อีดับเบิลยู (1993). ความต้องการเงิน: ทฤษฎี หลักฐาน และปัญหา (ฉบับที่ 4) นิวยอร์ก: ฮาร์เปอร์ คอลลินส์ ISBN 978-0065010985.
  24. อรรถเป็น Ehrenberg; สมิธ (2008) เศรษฐศาสตร์แรงงานสมัยใหม่ (ฉบับนานาชาติครั้งที่ 10) ลอนดอน: แอดดิสัน-เวสลีย์. ISBN 9780321538963.
  25. ^ เว็บเพจ EEMP เก็บถาวร 2011-06-11 ที่ Wayback Machine
  26. ^ "การถดถอยเชิงเส้น (การเรียนรู้ของเครื่อง)" (PDF) . มหาวิทยาลัยพิตต์สเบิร์ก .
  27. สติกเลอร์, สตีเฟน เอ็ม. (1986). ประวัติสถิติ: การวัดความไม่แน่นอนก่อนปี 1900 เคมบริดจ์: ฮาร์วาร์ด. ISBN  0-674-40340-1.

ที่มา

  • Cohen, J., Cohen P., West, SG, & Aiken, LS (2003). ประยุกต์การวิเคราะห์การถดถอย/สหสัมพันธ์พหุคูณสำหรับพฤติกรรมศาสตร์ (2nd ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • ชาร์ลส์ ดาร์วิน . ความผันแปรของสัตว์และพืชภายใต้การเลี้ยง (1868) (บทที่ 13 อธิบายถึงสิ่งที่ทราบเกี่ยวกับการพลิกกลับในสมัยของ Galton ดาร์วินใช้คำว่า "การพลิกกลับ")
  • เดรเปอร์ NR; สมิธ, เอช. (1998). การวิเคราะห์การถดถอยประยุกต์ (ฉบับที่ 3) จอห์น ไวลีย์. ISBN 978-0-471-17082-2.
  • ฟรานซิส กัลตัน. "การถดถอยสู่ความธรรมดาในสัดส่วนทางพันธุกรรม" วารสารสถาบันมานุษยวิทยา , 15:246-263 (1886). (โทรสารที่: [1] )
  • Robert S. Pindyck และ Daniel L. Rubinfeld (1998, 4h ed.) แบบจำลองเศรษฐมิติและการพยากรณ์ทางเศรษฐกิจ ch. 1 (บทนำ รวมภาคผนวกของตัวดำเนินการ Σ & ที่มาของค่าพารามิเตอร์โดยประมาณ) & ภาคผนวก 4.3 (การถดถอยหลายจุดในรูปแบบเมทริกซ์)

อ่านเพิ่มเติม

  • เปดาซูร์, เอลาซาร์ เจ (1982). การถดถอยพหุคูณในการวิจัยเชิงพฤติกรรม: คำอธิบายและการทำนาย (ฉบับที่ 2) นิวยอร์ก: โฮลท์ ไรน์ฮาร์ต และวินสตัน ISBN 978-0-03-041760-3.
  • Mathieu Rouaud, 2013: ความน่าจะเป็น สถิติ และการประมาณค่าบทที่ 2: การถดถอยเชิงเส้น การถดถอยเชิงเส้นพร้อมแถบข้อผิดพลาด และการถดถอยแบบไม่เชิงเส้น
  • ห้องปฏิบัติการทางกายภาพแห่งชาติ (1961). บทที่ 1: สมการเชิงเส้นและเมทริกซ์: วิธีการตรง วิธี การคำนวณสมัยใหม่ หมายเหตุเกี่ยวกับวิทยาศาสตร์ประยุกต์ ฉบับที่ 16 (พิมพ์ครั้งที่ 2). สำนักงานเครื่องเขียนของสมเด็จพระนางเจ้า

ลิงค์ภายนอก