สี่เหลี่ยมน้อยที่สุด

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา
ผลลัพธ์ของการปรับชุดของจุดข้อมูลด้วยฟังก์ชันกำลังสอง
Conic ประกอบชุดของจุดโดยใช้การประมาณค่ากำลังสองน้อยที่สุด

วิธีการของกำลังสองน้อยที่สุดเป็นแนวทางมาตรฐานในการวิเคราะห์การถดถอยเพื่อประมาณการแก้ปัญหาของระบบที่กำหนดมากเกินไป (ชุดของสมการที่มีสมการมากกว่าไม่ทราบค่า) โดยการลดจำนวนรวมของกำลังสองของเศษเหลือ (เศษเหลือ: ความแตกต่างระหว่าง ค่าที่สังเกตได้ และค่าที่พอดีโดยแบบจำลอง) เกิดขึ้นในผลลัพธ์ของสมการแต่ละตัว

แอปพลิเคชันที่สำคัญที่สุดคือการปรับข้อมูลให้เหมาะสม ความพอดีที่ดีที่สุดในความรู้สึกกำลังสองน้อยที่สุดจะลดผลรวมของเศษเหลือ ยกกำลัง สอง เมื่อปัญหามีความไม่แน่นอนอย่างมากในตัวแปรอิสระ ( ตัวแปร x ) การถดถอยอย่างง่ายและวิธีกำลังสองน้อยที่สุดก็จะมีปัญหา ในกรณีเช่นนี้ วิธีการที่จำเป็นสำหรับการปรับแบบจำลองค่าความผิดพลาดในตัวแปรอาจได้รับการพิจารณาแทนการพิจารณาสำหรับกำลังสองน้อยที่สุด

ปัญหากำลังสองน้อยที่สุดแบ่งออกเป็นสองประเภท: กำลังสองน้อยที่สุดเชิงเส้นหรือกำลังสองน้อยที่สุดธรรมดาและ กำลังสองน้อยที่สุดที่ ไม่เชิงเส้นขึ้นอยู่กับว่าเศษที่เหลือนั้นเป็นเส้นตรงในค่าไม่ทราบทั้งหมดหรือไม่ ปัญหากำลังสองน้อยที่สุดเชิงเส้นเกิดขึ้นในการวิเคราะห์การถดถอยทาง สถิติ มันมีโซลูชันแบบปิด ปัญหาที่ไม่เชิงเส้นมักจะแก้ไขได้ด้วยการปรับแต่งซ้ำๆ ในการวนซ้ำแต่ละครั้ง ระบบจะประมาณค่าเส้นตรง ดังนั้นการคำนวณหลักจึงคล้ายกันในทั้งสองกรณี

พหุนามกำลังสองน้อยที่สุดอธิบายความแปรปรวนในการทำนายตัวแปรตามเป็นฟังก์ชันของตัวแปรอิสระและการเบี่ยงเบนจากเส้นโค้งที่พอดี

เมื่อการสังเกตมาจาก แฟมิลีเอ็กซ์โปเนน เชีย ลที่ มีความเป็นเอกลักษณ์ตามสถิติที่เพียงพอตามธรรมชาติและสภาวะที่ไม่รุนแรง (เช่น สำหรับการแจกแจงแบบปกติ แบบเอ็กซ์โปเนนเชียล ปัวซอง และทวินาม) การประมาณค่ากำลังสองน้อยที่สุดที่ได้มาตรฐานและการประมาณค่าความเป็นไปได้สูงสุดจะเหมือนกัน [1]วิธีการของกำลังสองน้อยที่สุดยังสามารถนำมาเป็น วิธีการ ประมาณ โมเมนต์

การอภิปรายต่อไปนี้ส่วนใหญ่จะนำเสนอในแง่ของ ฟังก์ชัน เชิงเส้นแต่การใช้กำลังสองน้อยที่สุดนั้นถูกต้องและใช้ได้จริงสำหรับฟังก์ชันตระกูลทั่วไปมากกว่า นอกจากนี้ โดยการใช้การประมาณค่ากำลังสองในท้องถิ่นซ้ำๆ กับความน่าจะเป็น (ผ่านข้อมูลของ Fisher ) อาจใช้วิธีกำลังสองน้อยที่สุดเพื่อให้พอดีกับแบบจำลองเชิงเส้นตรงทั่วไป

วิธีการกำลังสองน้อยที่สุดถูกค้นพบและตีพิมพ์อย่างเป็นทางการโดยAdrien-Marie Legendre (1805) [2]แม้ว่าโดยทั่วไปแล้ววิธีการนี้จะให้เครดิตกับCarl Friedrich Gauss (1795) ด้วยเช่นกัน [3] [4]ซึ่งมีส่วนสนับสนุนความก้าวหน้าทางทฤษฎีที่สำคัญต่อ และอาจเคยใช้ในงานของเขามาก่อน [5] [6]

ประวัติ

การก่อตั้ง

วิธีการของสี่เหลี่ยมจัตุรัสน้อยที่สุดเกิดขึ้นจากสาขาดาราศาสตร์และมาตรวิทยา เนื่องจากนักวิทยาศาสตร์และนักคณิตศาสตร์พยายามหาทางแก้ปัญหาความท้าทายในการนำทางมหาสมุทรของโลกในช่วง ยุคแห่ง การสำรวจ คำอธิบายที่ถูกต้องเกี่ยวกับพฤติกรรมของเทห์ฟากฟ้าเป็นกุญแจสำคัญในการทำให้เรือสามารถแล่นในทะเลเปิดได้ ซึ่งลูกเรือไม่สามารถพึ่งพาการสังเกตการณ์ทางบกเพื่อการเดินเรือได้อีกต่อไป

วิธีการนี้เป็นสุดยอดของความก้าวหน้าหลายอย่างที่เกิดขึ้นในช่วงศตวรรษที่สิบแปด: [7]

  • การรวมกันของข้อสังเกตต่าง ๆ ว่าเป็นค่าประมาณที่ดีที่สุดของมูลค่าที่แท้จริง ข้อผิดพลาดลดลงด้วยการรวมมากกว่าการเพิ่มขึ้น บางทีอาจแสดงครั้งแรกโดยRoger Cotesในปี ค.ศ. 1722
  • การรวมกันของข้อสังเกตต่างๆ ที่เกิดขึ้นภายใต้ เงื่อนไข เดียวกันตรงกันข้ามกับการพยายามสังเกตและบันทึกการสังเกตเพียงครั้งเดียวให้ดีที่สุด วิธีการนี้เรียกว่าวิธีการเฉลี่ย โทเบียส เมเยอร์ใช้วิธีนี้อย่างโดดเด่นในขณะที่ศึกษาการสั่นของดวงจันทร์ในปี ค.ศ. 1750 และโดยปิแอร์-ไซมอน ลาปลาซในงานของเขาในการอธิบายความแตกต่างในการเคลื่อนที่ของดาวพฤหัสบดีและดาวเสาร์ในปี ค.ศ. 1788
  • การรวมกันของการสังเกตที่แตกต่างกันภายใต้เงื่อนไขที่แตกต่างกัน วิธีการนี้เป็นที่รู้จักในฐานะวิธีการเบี่ยงเบนสัมบูรณ์น้อยที่สุด โรเจอร์ โจเซฟ บอสโควิชทำการแสดงที่โดดเด่นในงานของเขาเกี่ยวกับรูปร่างของโลกในปี ค.ศ. 1757 และโดยปิแอร์-ไซมอน ลาปลาซสำหรับปัญหาเดียวกันในปี ค.ศ. 1799
  • การพัฒนาเกณฑ์ที่สามารถประเมินได้เพื่อกำหนดว่าเมื่อใดจึงจะบรรลุแนวทางแก้ไขที่มีข้อผิดพลาดน้อยที่สุด Laplace พยายามระบุรูปแบบทางคณิตศาสตร์ของ ความหนาแน่นของความ น่าจะเป็นสำหรับข้อผิดพลาด และกำหนดวิธีการประมาณค่าที่ลดข้อผิดพลาดในการประมาณค่าให้เหลือน้อยที่สุด เพื่อจุดประสงค์นี้ Laplace ใช้การแจกแจงแบบเอ็กซ์โพเนนเชียลสองด้านแบบสมมาตร ซึ่งตอนนี้เราเรียกว่าการแจกแจงแบบ Laplaceเพื่อจำลองการกระจายข้อผิดพลาด และใช้ผลรวมของค่าเบี่ยงเบนสัมบูรณ์เป็นข้อผิดพลาดของการประมาณค่า เขารู้สึกว่านี่เป็นสมมติฐานที่ง่ายที่สุดที่เขาสามารถทำได้ และเขาหวังว่าจะได้ค่าเฉลี่ยเลขคณิตเป็นค่าประมาณที่ดีที่สุด แต่ตัวประมาณค่าของเขาคือค่ามัธยฐานหลัง

วิธีการ

คำอธิบายที่ชัดเจนและกระชับครั้งแรกของวิธีการกำลังสองน้อยที่สุดถูกตีพิมพ์โดยLegendreในปี 1805 [8]เทคนิคนี้อธิบายว่าเป็นขั้นตอนเกี่ยวกับพีชคณิตสำหรับการปรับสมการเชิงเส้นให้เหมาะสมกับข้อมูล และ Legendre สาธิตวิธีการใหม่โดยการวิเคราะห์ข้อมูลเดียวกันกับ Laplace for รูปร่างของโลก ภายในสิบปีหลังจากการตีพิมพ์ของ Legendre วิธีการของช่องสี่เหลี่ยมน้อยที่สุดถูกนำมาใช้เป็นเครื่องมือมาตรฐานในด้านดาราศาสตร์และ geodesy ในฝรั่งเศส อิตาลี และปรัสเซีย ซึ่งถือเป็นการยอมรับเทคนิคทางวิทยาศาสตร์อย่างรวดเร็วเป็นพิเศษ [7]

ในปี ค.ศ. 1809 คาร์ล ฟรีดริช เกาส์ได้ตีพิมพ์วิธีการคำนวณวงโคจรของเทห์ฟากฟ้า ในงานนั้นเขาอ้างว่าครอบครองวิธีการกำลังสองน้อยที่สุดมาตั้งแต่ปี ค.ศ. 1795 สิ่งนี้นำไปสู่การโต้แย้งลำดับความสำคัญกับเลเจนเดร อย่างไรก็ตาม สำหรับเครดิตของ Gauss เขาได้ก้าวไปไกลกว่า Legendre และประสบความสำเร็จในการเชื่อมโยงวิธีการกำลังสองน้อยที่สุดกับหลักการของความน่าจะเป็นและการแจกแจงแบบปกติ เขาได้จัดการโปรแกรมของ Laplace ให้เสร็จสมบูรณ์โดยระบุรูปแบบทางคณิตศาสตร์ของความหนาแน่นของความน่าจะเป็นสำหรับการสังเกต โดยขึ้นอยู่กับพารามิเตอร์ที่ไม่รู้จักจำนวนจำกัด และกำหนดวิธีการประมาณที่ลดข้อผิดพลาดในการประมาณค่าให้เหลือน้อยที่สุด เกาส์พบว่าค่าเฉลี่ยเลขคณิตเป็นการประมาณค่าพารามิเตอร์ตำแหน่งที่ดีที่สุดโดยการเปลี่ยนทั้งความหนาแน่นของความน่าจะเป็นและวิธีการประมาณค่า จากนั้นเขาก็เปลี่ยนปัญหาด้วยการถามว่าความหนาแน่นควรมีรูปแบบใดและควรใช้วิธีการประมาณค่าใดเพื่อให้ได้ค่าเฉลี่ยเลขคณิตเป็นค่าประมาณของพารามิเตอร์ตำแหน่ง ในความพยายามนี้ เขาคิดค้นการแจกแจงแบบปกติ

การสาธิตความแรงของวิธีการของเกาส์ใน ช่วงแรก เกิดขึ้นเมื่อมันถูกใช้เพื่อทำนายตำแหน่งในอนาคตของดาวเคราะห์น้อยเซเรส ที่ค้นพบ ใหม่ เมื่อวันที่ 1 มกราคม พ.ศ. 2344 นักดาราศาสตร์ชาวอิตาลีจูเซปเป้ เปียซ ซี ได้ค้นพบเซเรสและสามารถติดตามเส้นทางของมันได้เป็นเวลา 40 วันก่อนที่มันจะหายไปในแสงจ้าของดวงอาทิตย์ จากข้อมูลเหล่านี้ นักดาราศาสตร์ต้องการระบุตำแหน่งของเซเรสหลังจากที่มันโผล่ออกมาจากด้านหลังดวงอาทิตย์โดยไม่แก้สมการการเคลื่อนที่ของดาวเคราะห์ ที่ไม่ซับซ้อนของเคปเลอร์ การคาดการณ์เดียวที่อนุญาตให้นักดาราศาสตร์ชาวฮังการีFranz Xaver von Zachย้ายที่ตั้งเซเรสได้สำเร็จคือการคาดการณ์โดย Gauss วัย 24 ปีโดยใช้การวิเคราะห์กำลังสองน้อยที่สุด

ในปี ค.ศ. 1810 หลังจากที่ได้อ่านงานของ Gauss แล้ว Laplace หลังจากพิสูจน์ทฤษฎีบทขีด จำกัด ศูนย์กลางใช้มันเพื่อให้เหตุผลตัวอย่างขนาดใหญ่สำหรับวิธีการของกำลังสองน้อยที่สุดและการแจกแจงแบบปกติ ในปี ค.ศ. 1822 เกาส์สามารถระบุได้ว่าวิธีกำลังสองน้อยที่สุดในการวิเคราะห์การถดถอยนั้นเหมาะสมที่สุดในแง่ที่ว่าในแบบจำลองเชิงเส้นตรงที่ข้อผิดพลาดมีค่าเฉลี่ยเป็นศูนย์ ไม่มีความสัมพันธ์กัน และมีความแปรปรวนเท่ากัน ตัวประมาณที่ไม่เอนเอียงเชิงเส้นที่ดีที่สุดของ สัมประสิทธิ์เป็นตัวประมาณค่ากำลังสองน้อยที่สุด ผลลัพธ์นี้เรียกว่าทฤษฎีบทเกาส์–มาร์กอ

แนวคิดของการวิเคราะห์ค่ากำลังสองน้อยที่สุดได้รับการกำหนดขึ้นอย่างอิสระโดย American Robert Adrainในปี 1808 ในอีกสองศตวรรษข้างหน้า คนงานในทฤษฎีข้อผิดพลาดและในสถิติพบวิธีต่างๆ ในการใช้กำลังสองน้อยที่สุด [9]

คำชี้แจงปัญหา

วัตถุประสงค์ประกอบด้วยการปรับพารามิเตอร์ของฟังก์ชันแบบจำลองให้เหมาะสมกับชุดข้อมูลมากที่สุด ชุดข้อมูลอย่างง่ายประกอบด้วยnจุด (คู่ข้อมูล), ผม = 1, …, n , โดยที่เป็นตัวแปรอิสระและเป็นตัวแปรตามซึ่งหาค่าได้จากการสังเกต ฟังก์ชั่นโมเดลมีรูปแบบโดยที่พารามิเตอร์ที่ปรับได้m อยู่ในเวกเตอร์. เป้าหมายคือการค้นหาค่าพารามิเตอร์สำหรับโมเดลที่ "ดีที่สุด" เหมาะสมกับข้อมูล ความพอดีของแบบจำลองกับจุดข้อมูลถูกวัดโดย ส่วนที่ เหลือซึ่งกำหนดเป็นความแตกต่างระหว่างค่าที่สังเกตได้ของตัวแปรตามและค่าที่ทำนายโดยแบบจำลอง:

ส่วนที่เหลือจะถูกวางแผนเทียบกับที่สอดคล้องกันค่านิยม ความผันผวนแบบสุ่มเกี่ยวกับแสดงว่าโมเดลเชิงเส้นมีความเหมาะสม

วิธีน้อยที่สุดกำลังสองจะค้นหาค่าพารามิเตอร์ที่เหมาะสมที่สุดโดยลดผลรวมของเศษเหลือยกกำลังสอง: [10]

ตัวอย่างของแบบจำลองในสองมิติคือของเส้นตรง แทนค่าตัดแกน y เป็นและความชันเป็น, ฟังก์ชั่น model ถูกกำหนดโดย. ดูกำลังสองน้อยที่สุดเชิงเส้นสำหรับตัวอย่างที่ทำเต็มที่ของโมเดลนี้

จุดข้อมูลอาจประกอบด้วยตัวแปรอิสระมากกว่าหนึ่งตัว ตัวอย่างเช่น เมื่อติดตั้งระนาบกับชุดการวัดความสูง ระนาบนั้นเป็นฟังก์ชันของตัวแปรอิสระสองตัวคือxและzกล่าว ในกรณีทั่วไปส่วนใหญ่ อาจมีตัวแปรอิสระอย่างน้อยหนึ่งตัวและตัวแปรตามตั้งแต่หนึ่งตัวขึ้นไปที่จุดข้อมูลแต่ละจุด

ทางด้านขวาเป็นแผนภาพที่เหลือแสดงความผันผวนแบบสุ่มเกี่ยวกับแสดงว่าตัวแบบเชิงเส้นมีความเหมาะสมเป็นตัวแปรสุ่มอิสระ [10]  

ส่วนที่เหลือจะถูกวางแผนเทียบกับที่สอดคล้องกันค่านิยม รูปร่างพาราโบลาของความผันผวนของแสดงว่าโมเดลพาราโบลามีความเหมาะสม

หากจุดตกค้างมีรูปร่างบางอย่างและไม่ผันผวนแบบสุ่ม แบบจำลองเชิงเส้นจะไม่เหมาะสม ตัวอย่างเช่น ถ้าแผนภาพที่เหลือมีรูปทรงพาราโบลาตามที่เห็นทางด้านขวา แบบจำลองพาราโบลาจะเหมาะสมกับข้อมูล ค่าคงเหลือสำหรับแบบจำลองพาราโบลาสามารถคำนวณได้จาก. [10]

ข้อจำกัด

สูตรการถดถอยนี้พิจารณาเฉพาะข้อผิดพลาดจากการสังเกตในตัวแปรตาม (แต่การ ถดถอย กำลังสองน้อยที่สุดทางเลือกรวมสามารถอธิบายข้อผิดพลาดในตัวแปรทั้งสองได้) มีสองบริบทที่ค่อนข้างแตกต่างกันโดยมีความหมายต่างกัน:

  • การถดถอยสำหรับการทำนาย มีการติดตั้งแบบจำลองเพื่อให้กฎการคาดการณ์สำหรับการใช้งานในสถานการณ์ที่คล้ายคลึงกันกับข้อมูลที่ใช้สำหรับการติดตั้ง ที่นี่ตัวแปรตามที่เกี่ยวข้องกับการใช้งานในอนาคตดังกล่าวจะอยู่ภายใต้ข้อผิดพลาดการสังเกตประเภทเดียวกับที่อยู่ในข้อมูลที่ใช้สำหรับการปรับให้เหมาะสม ดังนั้นจึงสอดคล้องตามหลักเหตุผลในการใช้กฎการคาดการณ์กำลังสองน้อยที่สุดสำหรับข้อมูลดังกล่าว
  • การถดถอยเพื่อให้เหมาะสมกับ "ความสัมพันธ์ที่แท้จริง" ใน การวิเคราะห์การถดถอยมาตรฐานที่นำไปสู่การปรับให้พอดีโดยใช้กำลังสองน้อยที่สุด มีการสันนิษฐานโดยปริยายว่าข้อผิดพลาดในตัวแปรอิสระนั้นเป็นศูนย์หรือถูกควบคุมอย่างเข้มงวดจนแทบไม่มีนัยสำคัญ เมื่อข้อผิดพลาดในตัวแปรอิสระไม่มีนัยสำคัญ สามารถใช้ แบบจำลองของข้อผิดพลาดในการวัดได้ วิธีการดังกล่าวสามารถนำไปสู่การประมาณค่าพารามิเตอร์การทดสอบสมมติฐานและช่วงความเชื่อมั่นที่คำนึงถึงการมีอยู่ของข้อผิดพลาดในการสังเกตในตัวแปรอิสระ [11]อีกวิธีหนึ่งคือทำให้โมเดลพอดีโดยใช้กำลังสองน้อยที่สุด; ซึ่งถือได้ว่าเป็นแนวทางปฏิบัติเพื่อสร้างสมดุลระหว่างผลกระทบของแหล่งที่มาต่างๆ ของข้อผิดพลาดในการกำหนดฟังก์ชันวัตถุประสงค์เพื่อใช้ในการปรับแบบจำลอง

การแก้ปัญหากำลังสองน้อยที่สุด

ค่าต่ำสุดของผลรวมของสี่เหลี่ยมจัตุรัสหาได้จากการตั้งค่าการไล่ระดับสีเป็นศูนย์ เนื่องจากตัวแบบมีพารามิเตอร์m ตัว จึงมี สมการการไล่ระดับสี m :

และตั้งแต่, สมการความชันกลายเป็น

สมการการไล่ระดับสีใช้กับปัญหากำลังสองน้อยที่สุดทั้งหมด ปัญหาแต่ละข้อต้องการนิพจน์เฉพาะสำหรับแบบจำลองและอนุพันธ์ย่อยบางส่วน (12)

เชิงเส้นกำลังสองน้อยที่สุด

ตัวแบบการถดถอยเป็นแบบเชิงเส้นเมื่อตัวแบบประกอบด้วยชุดค่าผสมเชิงเส้นของพารามิเตอร์ กล่าวคือ

ที่ฟังก์ชั่นเป็นหน้าที่ของ. (12)

ปล่อยและใส่ตัวแปรอิสระและตัวแปรตามในเมทริกซ์และตามลำดับ เราสามารถคำนวณกำลังสองน้อยที่สุดได้ด้วยวิธีต่อไปนี้ สังเกตว่าคือชุดข้อมูลทั้งหมด [12] [13]

การหาค่าต่ำสุดสามารถทำได้โดยการตั้งค่าความลาดชันของการสูญเสียเป็นศูนย์และการแก้ปัญหาสำหรับ

สุดท้ายตั้งค่าความลาดชันของการสูญเสียเป็นศูนย์และแก้ปัญหาสำหรับเราได้รับ: [13] [12]

กำลังสองน้อยที่สุดที่ไม่เป็นเชิงเส้น

ในบางกรณี มีวิธีแก้ปัญหาแบบปิดสำหรับปัญหากำลังสองน้อยที่สุดที่ไม่เป็นเชิงเส้น แต่โดยทั่วไปแล้วจะไม่มี ในกรณีที่ไม่มีวิธีแก้ปัญหาแบบปิด จะใช้อัลกอริธึมเชิงตัวเลขเพื่อค้นหาค่าของพารามิเตอร์ที่ลดวัตถุประสงค์ อัลกอริทึมส่วนใหญ่เกี่ยวข้องกับการเลือกค่าเริ่มต้นสำหรับพารามิเตอร์ จากนั้น พารามิเตอร์จะได้รับการขัดเกลาซ้ำแล้วซ้ำเล่า กล่าวคือ ได้ค่าจากการประมาณที่ต่อเนื่องกัน:

โดยที่ตัวยกkคือจำนวนการวนซ้ำ และเวกเตอร์ของการเพิ่มขึ้นเรียกว่าเวกเตอร์กะ ในอัลกอริธึมที่ใช้กันทั่วไปบางตัว ในการวนซ้ำแต่ละครั้ง โมเดลอาจจะถูกทำให้เป็นเส้นตรงโดยการประมาณการการขยายอนุกรมเทย์เลอร์ลำดับ ที่หนึ่งเกี่ยวกับ:

จา โคเบียน Jเป็นฟังก์ชันของค่าคงที่ ตัวแปรอิสระและพารามิเตอร์ ดังนั้นมันจึงเปลี่ยนจากการวนซ้ำหนึ่งครั้งเป็นการวนซ้ำถัดไป ส่วนที่เหลือจะได้รับโดย

เพื่อลดผลรวมของกำลังสองของ, สมการเกรเดียนต์ถูกตั้งค่าเป็นศูนย์และหาค่า:

ซึ่งในการจัดเรียงใหม่ กลายเป็น สมการเชิงเส้น mพร้อมกัน สมการปกติ :

สมการปกติเขียนด้วยสัญกรณ์เมทริกซ์เป็น

นี่คือสมการที่กำหนดของ อัลกอริธึ Gauss–Newton

ความแตกต่างระหว่างกำลังสองน้อยที่สุดเชิงเส้นและไม่เชิงเส้น

  • ฟังก์ชันแบบจำลองfใน LLSQ (สี่เหลี่ยมจัตุรัสน้อยที่สุดเชิงเส้น) คือชุดค่าผสมเชิงเส้นของพารามิเตอร์ของรูปแบบตัวแบบอาจแสดงเส้นตรง พาราโบลา หรือการรวมฟังก์ชันเชิงเส้นอื่นๆ ใน NLLSQ (กำลังสองน้อยที่สุดไม่เชิงเส้น) พารามิเตอร์จะปรากฏเป็นฟังก์ชัน เช่นและอื่นๆ ถ้าอนุพันธ์เป็นค่าคงที่หรือขึ้นอยู่กับค่าของตัวแปรอิสระเท่านั้น โมเดลจะเป็นเชิงเส้นในพารามิเตอร์ มิฉะนั้น โมเดลจะไม่เป็นเชิงเส้น
  • ต้องการค่าเริ่มต้นสำหรับพารามิเตอร์เพื่อค้นหาวิธีแก้ไขปัญหา NLLSQ LLSQ ไม่ต้องการพวกเขา
  • อัลกอริทึมของโซลูชันสำหรับ NLLSQ มักต้องการให้ Jacobian สามารถคำนวณได้เหมือนกับ LLSQ นิพจน์เชิงวิเคราะห์สำหรับอนุพันธ์ย่อยอาจมีความซับซ้อน หากนิพจน์เชิงวิเคราะห์เป็นไปไม่ได้ที่จะได้รับอนุพันธ์บางส่วนต้องคำนวณโดยการประมาณตัวเลขหรือต้องใช้ค่าประมาณจาโคเบียนซึ่งมักจะผ่าน ความแตก ต่างจำกัด
  • การไม่บรรจบกัน (ความล้มเหลวของอัลกอริทึมในการค้นหาขั้นต่ำ) เป็นปรากฏการณ์ทั่วไปใน NLLSQ
  • LLSQ มีลักษณะเว้าทั่วโลก ดังนั้นการไม่บรรจบกันจึงไม่ใช่ปัญหา
  • การแก้ปัญหา NLLSQ มักจะเป็นกระบวนการวนซ้ำซึ่งจะต้องยุติเมื่อเป็นไปตามเกณฑ์การบรรจบกัน โซลูชัน LLSQ สามารถคำนวณได้โดยใช้วิธีการโดยตรง แม้ว่าปัญหาที่มีพารามิเตอร์จำนวนมากมักจะแก้ไขได้ด้วยวิธีการวนซ้ำ เช่น วิธีเกาส์–ไซเดล
  • ใน LLSQ วิธีแก้ปัญหานั้นไม่ซ้ำกัน แต่ใน NLLSQ อาจมีหลายค่าต่ำสุดในผลรวมของกำลังสอง
  • ภายใต้เงื่อนไขที่ว่าข้อผิดพลาดไม่มีความสัมพันธ์กับตัวแปรทำนาย LLSQ จะให้ค่าประมาณที่เป็นกลาง แต่แม้ภายใต้เงื่อนไขนั้น ค่าประมาณของ NLLSQ มักจะมีความเอนเอียง

ความแตกต่างเหล่านี้ต้องได้รับการพิจารณาเมื่อใดก็ตามที่มีการค้นหาวิธีแก้ปัญหากำลังสองน้อยที่สุดที่ไม่เป็นเชิงเส้น (12)

ตัวอย่าง

พิจารณาตัวอย่างง่ายๆ จากวิชาฟิสิกส์ สปริงควรเป็นไปตามกฎของฮุคซึ่งระบุว่าการยืดของสปริงyเป็นสัดส่วนกับแรงFที่ใช้กับ สปริง

ประกอบเป็นโมเดล โดยที่Fเป็นตัวแปรอิสระ ในการประมาณค่า คงที่ของ แรง , kเราทำการ วัด n ชุด ด้วยแรงที่แตกต่างกันเพื่อสร้างชุดข้อมูลโดยที่y iคือส่วนขยายสปริงที่วัดได้ [14]การสังเกตการทดลองแต่ละครั้งจะมีข้อผิดพลาดบางอย่างดังนั้นเราอาจระบุแบบจำลองเชิงประจักษ์สำหรับการสังเกตของเรา

มีหลายวิธีที่เราอาจจะใช้ในการประมาณค่าพารามิเตอร์ที่ไม่รู้จักk เนื่องจากสมการn ใน ตัวแปรm ในข้อมูลของเรามี ระบบที่กำหนดมากเกินไปด้วยสมการที่ไม่รู้จักและสมการn หนึ่งชุด เราจึงประมาณค่า kโดยใช้กำลังสองน้อยที่สุด ผลรวมของกำลังสองที่จะย่อเล็กสุดคือ

(12)

ค่าประมาณกำลังสองน้อยที่สุดของค่าคงที่แรงkถูกกำหนดโดย

เราคิดว่าการใช้กำลังทำให้สปริงขยายตัว หลังจากที่ได้ค่าคงที่แรงโดยการปรับกำลังสองน้อยที่สุดแล้ว เราก็ทำนายการขยายจากกฎของฮุก

การหาปริมาณความไม่แน่นอน

ในการคำนวณกำลังสองน้อยที่สุดด้วยหน่วยน้ำหนัก หรือในการถดถอยเชิงเส้น ความแปรปรวนของ พารามิเตอร์ jแทน, มักจะประมาณด้วย

โดยที่ความแปรปรวนข้อผิดพลาดที่แท้จริงσ 2ถูกแทนที่ด้วยการประมาณการสถิติไคสแควร์ที่ลดลง ตามค่าที่น้อยที่สุดของผลรวมที่เหลือของกำลังสอง (ฟังก์ชันวัตถุประสงค์) S ตัวส่วนn  −  mคือองศาอิสระทางสถิติ ดูระดับความเป็นอิสระที่มีประสิทธิภาพสำหรับการสรุป [12] Cคือเมทริกซ์ความแปรปรวนร่วม

การทดสอบทางสถิติ

หากทราบการแจกแจงความน่าจะเป็นของพารามิเตอร์หรือมีการประมาณเชิงซีมโทติคจะสามารถหาขีดจำกัดความเชื่อมั่น ได้ ในทำนองเดียวกัน การทดสอบทางสถิติเกี่ยวกับสารตกค้างสามารถทำได้หากทราบหรือสมมติการกระจายความน่าจะเป็นของสารตกค้าง เราสามารถหาค่าการกระจายความน่าจะเป็นของชุดค่าผสมเชิงเส้นใดๆ ของตัวแปรตาม หากทราบหรือสันนิษฐานถึงการกระจายความน่าจะเป็นของข้อผิดพลาดจากการทดลอง การอนุมานนั้นง่ายเมื่อสมมติว่าข้อผิดพลาดเป็นไปตามการแจกแจงแบบปกติ ซึ่งหมายความว่าการประมาณค่าพารามิเตอร์และค่าคงเหลือนั้นปกติแล้วจะมีการกระจายแบบมีเงื่อนไขตามค่าของตัวแปรอิสระ (12)

จำเป็นต้องตั้งสมมติฐานเกี่ยวกับธรรมชาติของข้อผิดพลาดในการทดลองเพื่อทดสอบผลลัพธ์ทางสถิติ ข้อสันนิษฐานทั่วไปคือข้อผิดพลาดนั้นเป็นของการแจกแจงแบบปกติ ทฤษฎีบทขีดจำกัดกลางสนับสนุนแนวคิดที่ว่านี่เป็นการประมาณที่ดีในหลายกรณี

  • ทฤษฎีบทเกาส์–มาร์คอในแบบจำลองเชิงเส้นตรงที่ข้อผิดพลาดมีความคาดหวังเป็นศูนย์แบบมีเงื่อนไขสำหรับตัวแปรอิสระไม่มีความสัมพันธ์กัน และมี ความแปรปรวนเท่ากัน ตัวประมาณ ค่าเชิงเส้นตรงที่ดีที่สุดของผลรวมเชิงเส้นของการสังเกตคือตัวประมาณค่ากำลังสองน้อยที่สุด "ดีที่สุด" หมายความว่าตัวประมาณค่ากำลังสองน้อยที่สุดของพารามิเตอร์มีความแปรปรวนต่ำสุด สมมติฐานของความแปรปรวนเท่ากันนั้นใช้ได้เมื่อข้อผิดพลาดทั้งหมดเป็นของการกระจายเดียวกัน
  • หากข้อผิดพลาดเกิดขึ้นจากการแจกแจงแบบปกติ ตัวประมาณค่ากำลังสองน้อยที่สุดก็เป็นตัวประมาณความน่าจะเป็นสูงสุดในแบบจำลองเชิงเส้นด้วย

อย่างไรก็ตาม สมมติว่าข้อผิดพลาดไม่ได้ถูกกระจายตามปกติ ในกรณีนั้นทฤษฎีบทขีดจำกัดกลางมักจะบอกเป็นนัยว่าการประมาณค่าพารามิเตอร์จะมีการกระจายแบบปกติโดยประมาณตราบเท่าที่ตัวอย่างมีขนาดใหญ่พอสมควร ด้วยเหตุผลนี้ เมื่อพิจารณาจากคุณสมบัติสำคัญที่ค่าเฉลี่ยความผิดพลาดไม่ขึ้นกับตัวแปรอิสระ การแจกแจงระยะข้อผิดพลาดจึงไม่ใช่ประเด็นสำคัญในการวิเคราะห์การถดถอย โดยเฉพาะอย่างยิ่ง ไม่สำคัญว่าเงื่อนไขข้อผิดพลาดจะเป็นไปตามการแจกแจงแบบปกติหรือไม่

น้ำหนักสี่เหลี่ยมน้อยที่สุด

ผลของ "การคลี่ออก" ของ Heteroscedasticity

กรณีพิเศษของกำลังสองน้อยที่สุดทั่วไปที่เรียกว่า กำลังสองน้อยที่สุดที่ ถ่วงน้ำหนักเกิดขึ้นเมื่อรายการนอกแนวทแยงทั้งหมดของΩ (เมทริกซ์สหสัมพันธ์ของเศษเหลือ) เป็นโมฆะ ความแปรปรวนของการสังเกต (ตามเส้นทแยงมุมของเมทริกซ์ความแปรปรวนร่วม) อาจไม่เท่ากัน ( heteroscedasticity ) ในแง่ที่ง่ายกว่าheteroscedasticityคือเมื่อความแปรปรวนของขึ้นอยู่กับค่าของซึ่งทำให้โครงส่วนที่เหลือสร้างเอฟเฟกต์ "พัด" ให้ใหญ่ขึ้นค่าตามที่เห็นในแผนภาพที่เหลือทางด้านขวา ในทางกลับกันhomoscedasticityจะถือว่าความแปรปรวนของและมีค่าเท่ากัน [10]  

ความสัมพันธ์กับองค์ประกอบหลัก

องค์ประกอบหลักแรกเกี่ยวกับค่าเฉลี่ยของชุดของจุดสามารถแสดงด้วยเส้นนั้นซึ่งเข้าใกล้จุดข้อมูลมากที่สุด ในทางตรงกันข้าม กำลังสองน้อยที่สุดเชิงเส้นพยายามลดระยะห่างในทิศทางเท่านั้น ดังนั้น แม้ว่าทั้งสองจะใช้เมตริกข้อผิดพลาดที่คล้ายคลึงกัน แต่สี่เหลี่ยมจัตุรัสน้อยที่สุดเชิงเส้นเป็นวิธีที่ใช้พิจารณามิติข้อมูลหนึ่งอย่างเป็นพิเศษ ในขณะที่ PCA ปฏิบัติต่อมิติทั้งหมดอย่างเท่าเทียมกัน

ความสัมพันธ์กับทฤษฎีการวัด

นักสถิติที่มีชื่อเสียงSara van de Geerใช้ทฤษฎีกระบวนการเชิงประจักษ์และมิติ Vapnik-Chervonenkisเพื่อพิสูจน์ตัวประมาณค่ากำลังสองน้อยที่สุดสามารถตีความได้ว่าเป็นการวัดพื้นที่ของฟังก์ชัน ที่ รวมกำลังสองกำลังสอง [15]

การทำให้เป็นมาตรฐาน

การทำให้เป็นมาตรฐาน Tikhonov

ในบางบริบท ควรใช้เวอร์ชัน ปกติของโซลูชันกำลังสองน้อยที่สุด การทำให้เป็นมาตรฐาน Tikhonov (หรือการถดถอยสันเขา ) เพิ่มข้อจำกัดที่L 2 -normของเวกเตอร์พารามิเตอร์ไม่มากกว่าค่าที่กำหนด [ ต้องการการอ้างอิง ]ในทำนองเดียวกัน[ พิรุธ ]อาจแก้ปัญหาการลดค่าโทษกำลังสองน้อยที่สุดโดยไม่มีข้อจำกัดด้วยเพิ่มโดยที่เป็นค่าคงที่ (นี่คือ รูปแบบ ลากรองจ์ของปัญหาที่มีข้อจำกัด) ใน บริบท แบบเบย์นี่เทียบเท่ากับการวางค่าเฉลี่ยศูนย์แบบปกติก่อนบนเวกเตอร์พารามิเตอร์

วิธี Lasso

เวอร์ชัน มาตรฐานทางเลือกของช่องสี่เหลี่ยมน้อยที่สุดคือLasso (ตัวดำเนินการการหดตัวและการเลือกแบบสัมบูรณ์น้อยที่สุด) ซึ่งใช้ข้อจำกัดที่L 1 -normของเวกเตอร์พารามิเตอร์ไม่มากกว่าค่าที่กำหนด [16] [17] [18] (ดังที่กล่าวข้างต้น นี่เทียบเท่ากับ[ พิรุธ ]กับการลดโทษกำลังสองน้อยที่สุดโดยไม่มีข้อจำกัดด้วยเพิ่ม) ใน บริบท แบบเบย์นี่เทียบเท่ากับการวางการแจกแจงล่วงหน้า ของ Laplace ที่มีค่าเฉลี่ยเป็นศูนย์ บนเวกเตอร์พารามิเตอร์ [19]ปัญหาการหาค่าที่เหมาะสมที่สุดอาจแก้ไขได้โดยใช้โปรแกรมกำลังสองหรือ วิธี การเพิ่มประสิทธิภาพนูน ทั่วไป เช่นเดียวกับอัลกอริธึมเฉพาะ เช่น อัลกอริธึม การถดถอยมุมน้อยที่สุด

ความแตกต่างที่สำคัญประการหนึ่งระหว่าง Lasso กับการถดถอยของสันคือ ในการถดถอยของสัน เมื่อค่าปรับเพิ่มขึ้น พารามิเตอร์ทั้งหมดจะลดลงในขณะที่ยังคงไม่เป็นศูนย์ ในขณะที่ใน Lasso การเพิ่มโทษจะทำให้พารามิเตอร์มากขึ้นเรื่อยๆ ขับเคลื่อนเป็นศูนย์ นี่เป็นข้อได้เปรียบของ Lasso เหนือการถดถอยแนวสัน เนื่องจากพารามิเตอร์การขับไปที่ศูนย์จะยกเลิกการเลือกคุณสมบัติจากการถดถอย ดังนั้น Lasso จะเลือกคุณสมบัติที่เกี่ยวข้องมากกว่าโดยอัตโนมัติและละทิ้งคุณสมบัติอื่นๆ ในขณะที่การถดถอยของริดจ์จะไม่ละทิ้งคุณสมบัติใดๆ โดยสิ้นเชิง เทคนิคการ เลือกคุณลักษณะบางอย่าง ได้ รับการพัฒนาโดยใช้ LASSO รวมถึง Bolasso ซึ่งบูตสแตรปตัวอย่าง[20] และ FeaLect ซึ่งวิเคราะห์ค่าสัมประสิทธิ์การถดถอยที่สอดคล้องกับค่าต่างๆ ของเพื่อทำคะแนนคุณสมบัติทั้งหมด (21)

สูตร L 1 -regularized มีประโยชน์ในบางบริบทเนื่องจากมีแนวโน้มที่จะชอบโซลูชันที่มีพารามิเตอร์มากกว่าศูนย์ ซึ่งทำให้โซลูชันที่ขึ้นอยู่กับตัวแปรน้อยกว่า [16]ด้วยเหตุผลนี้ Lasso และรุ่นต่างๆ ของมันจึงเป็นพื้นฐานของการตรวจจับแบบบีบอัด ส่วนขยายของแนวทางนี้คือการ ทำให้เป็นมาตรฐาน แบบยืดหยุ่นสุทธิ

ดูเพิ่มเติม

อ้างอิง

  1. ^ ชาร์นส์, ก.; โฟรม, เอล; ยู, PL (1976) "ความเท่าเทียมกันของกำลังสองน้อยที่สุดทั่วไปและค่าประมาณความน่าจะเป็นสูงสุดในตระกูลเอ็กซ์โปเนนเชียล" วารสารสมาคมสถิติอเมริกัน . 71 (353): 169–171. ดอย : 10.1080/01621459.1976.10481508 .
  2. Mansfield Merriman, "รายการงานเขียนที่เกี่ยวข้องกับวิธีการลดกำลังสอง"
  3. เบรทเชอร์, อ็อตโต (1995). พีชคณิตเชิงเส้นพร้อมแอปพลิเคชัน (ฉบับที่ 3) Upper Saddle River, นิวเจอร์ซีย์: Prentice Hall
  4. สติกเลอร์, สตีเฟน เอ็ม. (1981). "เกาส์กับการประดิษฐ์สี่เหลี่ยมน้อยที่สุด" . แอน. สถิติ _ 9 (3): 465–474. ดอย : 10.1214/aos/1176345451 .
  5. ^ บริแทนนิกา "วิธีกำลังสองน้อยที่สุด"
  6. การศึกษาประวัติศาสตร์ความน่าจะเป็นและสถิติ. XXIX: การค้นพบวิธีการของกำลังสองน้อยที่สุด RL Plackett
  7. อรรถเป็น สติกเลอร์, สตีเฟน เอ็ม. (1986). ประวัติสถิติ: การวัดความไม่แน่นอนก่อนปี 1900 เคมบริดจ์, แมสซาชูเซตส์: Belknap Press ของ Harvard University Press ISBN 978-0-674-40340-6.
  8. Legendre, Adrien-Marie (1805), Nouvelles méthodes pour la détermination des orbites des comètes [ New Methods for the Determination of the Orbits of Comets ] (ในภาษาฝรั่งเศส), Paris: F. Didot, hdl : 2027/nyp.33433069112559
  9. ^ อัลดริช เจ. (1998). "การทำสี่เหลี่ยมน้อยที่สุด: มุมมองจากเกาส์และเทศกาลคริสต์มาส". การทบทวนทางสถิติระหว่างประเทศ 66 (1): 61–81. ดอย : 10.1111/j.1751-5823.1998.tb00406.x . S2CID 121471194 . 
  10. a b c d ข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นและสถิติสมัยใหม่: ทำความเข้าใจว่าทำไมและอย่างไร เดคกิ้ง, มิเชล, 2489-. ลอนดอน: สปริงเกอร์. 2005. ISBN 978-1-85233-896-1. OCLC  262680588 .{{cite book}}: CS1 maint: อื่น ๆ ( ลิงค์ )
  11. ^ สำหรับข้อมูลเบื้องต้นที่ดีเกี่ยวกับค่าความผิดพลาดในตัวแปร โปรดดูที่ Fuller, WA (1987) แบบจำลองข้อ ผิดพลาดในการวัด จอห์น ไวลีย์ แอนด์ ซันส์. ISBN 978-0-471-86187-4.
  12. a b c d e f g h Williams, Jeffrey H. (Jeffrey Huw), 1956- (พฤศจิกายน 2016). การวัดปริมาณ: การกดขี่ของตัวเลข Morgan & Claypool Publishers, สถาบันฟิสิกส์ (บริเตนใหญ่) ซาน ราฟาเอล [แคลิฟอร์เนีย] (40 Oak Drive, San Rafael, CA, 94903, USA) ISBN 978-1-68174-433-9. OCLC  962422324 .{{cite book}}: CS1 maint: ตำแหน่ง ( ลิงค์ ) CS1 maint: หลายชื่อ: รายชื่อผู้เขียน ( ลิงค์ )
  13. อรรถเป็น เรนเชอร์ อัลวิน ซี.; คริสเตนเซ่น, วิลเลียม เอฟ. (2012-08-15). วิธีการวิเคราะห์หลายตัวแปร จอห์น ไวลีย์ แอนด์ ซันส์. หน้า 155. ISBN 978-1-118-39167-9.
  14. ^ เกียร์, เจมส์ เอ็ม. (2013). กลศาสตร์ของวัสดุ Goodno, Barry J. (ฉบับที่ 8) Stamford, Conn.: Cengage Learning. ISBN 978-1-111-57773-5. OCLC  741541348 .
  15. แวน เดอ เกียร์ ซาร่า (มิถุนายน 2530) "แนวทางใหม่ในการประมาณค่ากำลังสองน้อยที่สุดพร้อมแอปพลิเคชัน " พงศาวดาร ของสถิติ 15 (2): 587–602. ดอย : 10.1214/aos/1176350362 .
  16. ^ a b Tibshirani, R. (1996). "การถดถอยและการเลือกแบบถดถอยโดยใช้บ่วงบาศ". วารสารราชสมาคมสถิติ ชุด บี . 58 (1): 267–288. JSTOR 2346178 . 
  17. ^ เฮสตี เทรเวอร์ ; ทิบชิรานี, โรเบิร์ต; ฟรีดแมน, เจอโรม เอช. (2009). องค์ประกอบของการเรียนรู้ทางสถิติ (ฉบับที่สอง) สปริงเกอร์-แวร์แล็ก. ISBN 978-0-387-84858-7. เก็บถาวรจากต้นฉบับเมื่อ 2009-11-10
  18. บุลมันน์, ปีเตอร์; ฟาน เดอ เกียร์, ซาร่า (2011). สถิติสำหรับข้อมูลมิติสูง: วิธีการ ทฤษฎี และการประยุกต์ใช้ สปริงเกอร์. ISBN 9783642201929.
  19. ^ ปาร์ค เทรเวอร์; คาเซลลา, จอร์จ (2008). "บาเยเซียนลาสโซ่". วารสารสมาคมสถิติอเมริกัน . 103 (482): 681–686. ดอย : 10.1198/016214508000000337 . S2CID 11797924 . 
  20. บัค, ฟรานซิส อาร์ (2008) "Bolasso: การประมาณค่า Lasso แบบสม่ำเสมอผ่าน Bootstrap " การดำเนินการของการประชุมนานาชาติเรื่องการเรียนรู้ของเครื่อง ครั้งที่ 25 Icml '08: 33–40. arXiv : 0804.1302 . รหัส: 2008arXiv0804.1302B . ดอย : 10.1145/1390156.1390161 . ISBN 9781605582054. S2CID  609778 .
  21. ^ ซาเร ฮาบิล (2013). "การให้คะแนนความเกี่ยวข้องของคุณลักษณะตามการวิเคราะห์แบบผสมผสานของ Lasso กับการประยุกต์ใช้กับการวินิจฉัยมะเร็งต่อมน้ำเหลือง " บี เอ็มซี จีโนมิกส์ 14 : S14. ดอย : 10.1186/1471-2164-14-S1-S14 . PMC 3549810 . PMID 23369194 .  

อ่านเพิ่มเติม

ลิงค์ภายนอก