การทดสอบ ABX

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

การทดสอบ ABXเป็นวิธีการเปรียบเทียบสิ่งเร้าทางประสาทสัมผัสสองทางเลือกเพื่อระบุความแตกต่างที่ตรวจพบได้ระหว่างสิ่งเร้า ผู้รับการ ทดลองจะถูกนำเสนอด้วยตัวอย่างที่รู้จักสองตัวอย่าง (ตัวอย่างAการอ้างอิงครั้งแรก และตัวอย่างBการอ้างอิงครั้งที่สอง) ตามด้วยตัวอย่างXที่ไม่รู้จักหนึ่งตัวอย่างซึ่งสุ่มเลือกแบบสุ่มจาก A หรือ B จากนั้นอาสาสมัครจะต้องระบุ X เป็นอย่างใดอย่างหนึ่ง A หรือ B หาก X ไม่สามารถระบุได้อย่างน่าเชื่อถือโดยมีค่าp ต่ำ ในจำนวนการทดลองที่กำหนดไว้ล่วงหน้าสมมติฐานว่างไม่สามารถปฏิเสธได้และไม่สามารถพิสูจน์ได้ว่ามีความแตกต่างที่มองเห็นได้ระหว่าง A และ B

การทดสอบ ABX สามารถทำได้โดยง่ายในการทดสอบแบบ double-blindซึ่งจะช่วยขจัดอิทธิพลที่อาจจะเกิดขึ้นโดยไม่รู้ตัวจากผู้วิจัยหรือหัวหน้างานทดสอบ เนื่องจากตัวอย่าง A และ B ถูกจัดเตรียมไว้ก่อนตัวอย่าง X ความแตกต่างจึงไม่จำเป็นต้องถูกแยกแยะจากการสันนิษฐานตามหน่วยความจำระยะยาวหรือประสบการณ์ในอดีต ดังนั้น การทดสอบ ABX จะเป็นคำตอบว่าภายใต้สถานการณ์ที่เหมาะสม จะพบความแตกต่างในการรับรู้หรือไม่

การทดสอบ ABX มักใช้ในการประเมินวิธีการบีบอัดข้อมูลเสียง ดิจิทัล โดยทั่วไป ตัวอย่าง A คือตัวอย่างที่ไม่มีการบีบอัด และตัวอย่าง B คือเวอร์ชันบีบอัดของ A อาร์ติแฟกต์การบีบอัดเสียงที่บ่งชี้ข้อบกพร่องในอัลกอริธึมการบีบอัดสามารถระบุได้ด้วยการทดสอบในภายหลัง การทดสอบ ABX ยังสามารถใช้เพื่อเปรียบเทียบระดับการสูญเสียความเที่ยงตรงที่แตกต่างกันระหว่างรูปแบบเสียงสองรูปแบบที่อัตราบิต ที่ กำหนด

การทดสอบ ABX สามารถใช้ในการออดิชั่นส่วนประกอบอินพุต การประมวลผล และเอาต์พุต รวมถึงการเดินสาย: แทบทุกผลิตภัณฑ์เสียงหรือการออกแบบต้นแบบ

ประวัติ

ประวัติการทดสอบและการตั้งชื่อ ABX ย้อนหลังไปถึงปี 1950 ในบทความที่ตีพิมพ์โดยนักวิจัยของ Bell Labs สองคนคือ WA Munson และ Mark B. Gardner ในหัวข้อStandardizing Auditory Tests [1]

บทความนี้มีจุดประสงค์เพื่ออธิบายขั้นตอนการทดสอบซึ่งแสดงให้เห็นอย่างชัดเจนในทิศทางนี้ และเพื่อให้คำอธิบายเกี่ยวกับอุปกรณ์ซึ่งพบว่ามีประโยชน์ในการลดความแปรปรวนของผลการทดสอบให้เหลือน้อยที่สุด ขั้นตอนที่เราเรียกว่าการทดสอบ “ABX” เป็นการปรับเปลี่ยนวิธีการเปรียบเทียบแบบคู่ ผู้สังเกตการณ์จะได้รับสัญญาณลำดับเวลาสามสัญญาณสำหรับการตัดสินแต่ละครั้งที่เขาขอให้ทำ ในช่วงระยะเวลาแรกเขาได้ยินสัญญาณ A ในช่วงที่สองสัญญาณ B และสุดท้ายสัญญาณ X หน้าที่ของเขาคือระบุว่าเสียงที่ได้ยินระหว่างช่วง X นั้นเป็นแบบนั้นมากกว่าในช่วง A หรือมากกว่านั้นในช่วง B ช่วงเวลา สำหรับการทดสอบขีดจำกัด ช่วง A จะเงียบ ช่วง B คือสัญญาณ และช่วง X จะเงียบหรือเป็นสัญญาณ

การทดสอบได้พัฒนาไปสู่รูปแบบอื่นๆ เช่น การควบคุมระยะเวลาและลำดับของการทดสอบ ตัวอย่างหนึ่งคือเครื่องเปรียบเทียบฮาร์ดแวร์ ABX ในปี 1977 ซึ่งสร้างโดยบริษัท ABX ในเมืองทรอย รัฐมิชิแกน และบันทึกโดย David Clark หนึ่งในผู้ก่อตั้งบริษัท [2]

การปรับแต่งการทดสอบ A/B

ประสบการณ์ครั้งแรกของผู้เขียนกับการทดสอบการได้ยินแบบ double-blind คือการเป็นสมาชิกของ SMWTMS Audio Club ในต้นปี 1977 มีปุ่มให้ซึ่งจะเลือกที่ส่วนประกอบแบบสุ่ม A หรือ B เมื่อระบุหนึ่งในสิ่งเหล่านี้ องค์ประกอบ X ถูกขัดขวางอย่างมากโดยไม่ได้ มี A และ B ที่รู้จักเพื่อใช้อ้างอิง

สิ่งนี้ได้รับการแก้ไขโดยใช้ปุ่มกดที่เชื่อมต่อกันสามปุ่ม A, B และ X เมื่อ X ถูกเลือกแล้ว มันจะยังคงเป็น A หรือ B เฉพาะนั้นจนกว่าจะตัดสินใจย้ายไปเลือกแบบสุ่มอื่น

อย่างไรก็ตาม ปัญหาอื่นก็ชัดเจนขึ้นอย่างรวดเร็ว มีการหน่วงเวลาการเปลี่ยนผ่านของเสียงที่ได้ยินเสมอเมื่อเปลี่ยนจาก A เป็น B อย่างไรก็ตาม เมื่อเปลี่ยนจาก A เป็น X อย่างไรก็ตาม การหน่วงเวลาจะหายไปหาก X เป็น A จริงๆ และแสดงขึ้นหาก X เป็น B จริงๆ สัญญาณภายนอกนี้ถูกลบโดย แทรกเวลาดรอปเอาท์ที่มีความยาวคงที่เมื่อทำการเปลี่ยนแปลงใด ๆ เลือกเวลาออกกลางคันเป็น 50 มิลลิวินาที ซึ่งทำให้เกิดการคลิกที่สอดคล้องกันเล็กน้อยในขณะที่ให้การเปรียบเทียบแบบทันทีตามอัตวิสัย

ขณะนี้ บริษัท ABX เลิกใช้แล้วและเครื่องมือเปรียบเทียบฮาร์ดแวร์โดยทั่วไปเมื่อข้อเสนอเชิงพาณิชย์สูญพันธุ์ มีเครื่องมือซอฟต์แวร์มากมาย เช่น ปลั๊กอิน Foobar ABX สำหรับการเปรียบเทียบไฟล์ แต่การทดสอบอุปกรณ์ฮาร์ดแวร์จำเป็นต้องมีการสร้างการใช้งานแบบกำหนดเอง

การทดสอบฮาร์ดแวร์

เครื่องเปรียบเทียบ QSC ABXสองตัวในชั้นวางสำหรับเดินทาง

อุปกรณ์ทดสอบ ABX ที่ใช้รีเลย์เพื่อสลับระหว่างพาธฮาร์ดแวร์สองพาธที่ต่างกันสามารถช่วยตรวจสอบว่าสายเคเบิลและส่วนประกอบมีความแตกต่างในการรับรู้หรือไม่ สามารถเปรียบเทียบเส้นทางการส่งสัญญาณวิดีโอ เสียง และดิจิทัลได้ หากสวิตช์ควบคุมด้วยไมโครโปรเซสเซอร์ จะสามารถทำการทดสอบแบบ double-blind ได้

การเปรียบเทียบระดับเสียงของลำโพงและระดับสายสามารถทำได้บนอุปกรณ์ทดสอบ ABX ที่เสนอขายในฐานะเครื่องเปรียบเทียบ ABXโดยผลิตภัณฑ์เสียงของ QSCตั้งแต่ปี 2541 ถึง 2547 โซลูชันฮาร์ดแวร์อื่นๆ ได้รับการประดิษฐ์ขึ้นโดยบุคคลหรือองค์กรเป็นการส่วนตัวสำหรับการทดสอบภายใน

ความมั่นใจ

หากทำการทดลอง ABX เพียงหนึ่งครั้ง การเดาแบบสุ่มจะมีโอกาส 50% ในการเลือกคำตอบที่ถูกต้อง เช่นเดียวกับการพลิกเหรียญ ต้องมีการทดลองหลายครั้งเพื่อให้คำแถลงมีความมั่นใจ ในระดับหนึ่ง โดยการเพิ่มจำนวนการทดลอง โอกาสในการยืนยันความสามารถของบุคคลในการแยกแยะ A และ B ทางสถิติจะเพิ่มขึ้นสำหรับระดับความเชื่อมั่นที่กำหนด ระดับความเชื่อมั่น 95% โดยทั่วไปถือว่ามีนัยสำคัญทางสถิติ [2]บริษัท QSC ในคู่มือผู้ใช้ ABX Comparator แนะนำให้ทดลองฟังอย่างน้อยสิบครั้งในการทดสอบแต่ละรอบ [3]

ผลลัพธ์ที่จำเป็นสำหรับระดับความมั่นใจ 95% [4] (ดู: ค่า P )
จำนวนการทดลอง 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
ตัวเลขขั้นต่ำถูกต้อง 9 9 10 10 11 12 12 13 13 14 15 15 16 16 17 18

QSC แนะนำให้ทำการทดลองไม่เกิน 25 ครั้ง เนื่องจากความเหนื่อยล้าของตัวแบบสามารถเกิดขึ้นได้ ทำให้การทดสอบมีความละเอียดอ่อนน้อยลง (มีโอกาสน้อยที่จะเปิดเผยความสามารถที่แท้จริงของบุคคลในการแยกแยะความแตกต่างระหว่าง A และ B) [3]อย่างไรก็ตาม การทดสอบที่ละเอียดอ่อนกว่านั้นสามารถทำได้โดยการรวมผลลัพธ์จากการทดสอบดังกล่าวจำนวนหนึ่งโดยใช้บุคคลหรือการทดสอบแยกจากหัวข้อเดียวกันที่ดำเนินการระหว่างช่วงพัก สำหรับการทดลองทั้งหมดจำนวนมาก N ผลลัพธ์ที่มีนัยสำคัญ (แบบที่มีความมั่นใจ 95%) สามารถอ้างสิทธิ์ได้หากจำนวนคำตอบที่ถูกต้องเกิน. การตัดสินใจที่สำคัญมักจะขึ้นอยู่กับระดับความมั่นใจที่สูงขึ้น เนื่องจาก "ผลลัพธ์ที่มีนัยสำคัญ" ที่ผิดพลาดจะถูกอ้างสิทธิ์ในหนึ่งใน 20 การทดสอบดังกล่าวโดยบังเอิญ

การทดสอบซอฟต์แวร์

เครื่องเล่น เสียงfoobar2000และAmarokรองรับการทดสอบ ABX แบบซอฟต์แวร์ โดยใช้สคริปต์ของบุคคลที่สาม Lacinato ABX เป็นเครื่องมือทดสอบเสียงข้ามแพลตฟอร์มสำหรับ Linux, Windows และ Mac 64 บิต Lacinato WebABX เป็นเครื่องมือ ABX เสียงข้ามเบราว์เซอร์บนเว็บ โอเพ่นซอร์ส aveX ได้รับการพัฒนาเป็นหลักสำหรับLinuxซึ่งให้การตรวจสอบการทดสอบจากคอมพิวเตอร์ระยะไกล ABX patcher เป็นการนำ ABX ไปใช้งานMax/ MSP ซอฟต์แวร์ ABX เพิ่มเติมสามารถพบได้ที่เว็บไซต์ PCABX ที่เก็บถาวร

การทดสอบการฟัง Codec

การทดสอบการฟังตัวแปลงสัญญาณเป็นการศึกษาทางวิทยาศาสตร์ ที่ออกแบบมาเพื่อเปรียบเทียบตัวแปลงสัญญาณเสียง ที่ สูญเสีย ไปตั้งแต่สองตัวขึ้น ไป โดยปกติแล้วจะสัมพันธ์กับความเที่ยงตรง ที่รับรู้ หรือประสิทธิภาพในการบีบอัด

ข้อบกพร่องที่อาจเกิดขึ้น

ABX เป็นการทดสอบทางเลือกประเภทบังคับ ทางเลือกของอาสาสมัครอาจเป็นประโยชน์ กล่าวคือ ผู้รับการทดลองพยายามระบุโดยสุจริตว่า X ดูเหมือนใกล้ A หรือ B มากกว่า แต่ผู้ที่ไม่สนใจหรือเหนื่อยอาจเลือกแบบสุ่มโดยไม่ต้องพยายามด้วยซ้ำ หากไม่ถูกจับ การทำเช่นนี้อาจทำให้ผลลัพธ์ของอาสาสมัครคนอื่นๆ ที่ตั้งใจทำแบบทดสอบเจือจางลงและทำให้ผลลัพธ์เป็นไปตามความขัดแย้งของ Simpsonส่งผลให้เกิดผลสรุปที่ผิดพลาด เพียงแค่ดูผลรวมของการทดสอบ ( คำตอบที่ถูกต้อง mจากnข้อ) ไม่สามารถเปิดเผยปัญหาที่เกิดขึ้นได้

ปัญหานี้รุนแรงขึ้นหากความแตกต่างมีขนาดเล็ก ผู้ใช้อาจรู้สึกหงุดหงิดและเพียงแค่มุ่งที่จะทำการทดสอบให้เสร็จโดยการสุ่มลงคะแนน ในเรื่องนี้ การทดสอบแบบบังคับทางเลือก เช่น ABX มักจะชอบผลลัพธ์เชิงลบเมื่อความแตกต่างมีน้อย หากไม่มีการใช้โปรโตคอลที่เหมาะสมเพื่อป้องกันปัญหานี้

แนวปฏิบัติที่ดีที่สุดเรียกร้องให้มีการรวมการควบคุมและการคัดกรองอาสาสมัคร: [5]

การพิจารณาที่สำคัญคือการรวมเงื่อนไขการควบคุมที่เหมาะสม โดยปกติ เงื่อนไขการควบคุมจะรวมถึงการนำเสนอสื่อเสียงที่ไม่มีข้อบกพร่อง ซึ่งนำมาใช้ในลักษณะที่ตัวแบบคาดเดาไม่ได้ เป็นความแตกต่างระหว่างการตัดสินของสิ่งเร้าควบคุมเหล่านี้กับสิ่งกระตุ้นที่อาจบกพร่อง ซึ่งทำให้สรุปได้ว่าคะแนนเป็นการประเมินที่แท้จริงของความบกพร่อง

3.2.2 การคัดกรองรายวิชา

วิธีการหลังการคัดกรองสามารถแบ่งคร่าวๆ ออกเป็นสองคลาสเป็นอย่างน้อย อันหนึ่งอิงจากความไม่สอดคล้องกันเมื่อเปรียบเทียบกับผลลัพธ์เฉลี่ย และอีกอันขึ้นอยู่กับความสามารถของตัวแบบในการระบุตัวตนที่ถูกต้อง ชั้นหนึ่งไม่เคยมีเหตุผล เมื่อใดก็ตามที่ทำการทดสอบการฟังตามอัตวิสัยด้วยวิธีการทดสอบที่แนะนำในที่นี้ ข้อมูลที่จำเป็นสำหรับชั้นที่สองของการทดสอบภายหลังการคัดกรองจะใช้ได้โดยอัตโนมัติ วิธีการทางสถิติที่แนะนำสำหรับการทำเช่นนี้ได้อธิบายไว้ในเอกสารแนบ 1'

วิธีการนี้ใช้เป็นหลักในการกำจัดอาสาสมัครที่ไม่สามารถทำการเลือกปฏิบัติที่เหมาะสมได้ การใช้วิธีการหลังการตรวจคัดกรองอาจชี้แจงแนวโน้มในผลการทดสอบ อย่างไรก็ตาม โดยคำนึงถึงความแปรปรวนของความไวของอาสาสมัครต่อสิ่งประดิษฐ์ต่างๆ ควรใช้ความระมัดระวัง

ข้อบกพร่องอื่นๆ ได้แก่ การขาดการฝึกวิชาและความคุ้นเคยกับข้อสอบและเนื้อหาที่เลือก:

4.1 ขั้นตอนการทำความคุ้นเคยหรือการฝึกอบรม

ก่อนการให้คะแนนอย่างเป็นทางการ ผู้เข้าร่วมต้องได้รับอนุญาตให้ทำความคุ้นเคยกับสิ่งอำนวยความสะดวกในการทดสอบ สภาพแวดล้อมในการทดสอบ กระบวนการจัดเกรด ระดับการให้คะแนน และวิธีการใช้งาน อาสาสมัครควรทำความคุ้นเคยกับสิ่งประดิษฐ์ที่อยู่ระหว่างการศึกษาอย่างละเอียดถี่ถ้วน สำหรับการทดสอบที่ละเอียดอ่อนที่สุด พวกเขาควรเปิดเผยเนื้อหาทั้งหมดที่พวกเขาจะให้คะแนนในภายหลังในช่วงการให้คะแนนอย่างเป็นทางการ ในระหว่างการทำความคุ้นเคยหรือการฝึกอบรม อาสาสมัครควรอยู่รวมกันเป็นกลุ่ม (เช่น ประกอบด้วยสามวิชา) เพื่อให้พวกเขาสามารถโต้ตอบได้อย่างอิสระและหารือเกี่ยวกับสิ่งประดิษฐ์ที่พวกเขาตรวจพบซึ่งกันและกัน

ปัญหาอื่นๆ อาจเกิดขึ้นจากตัวอุปกรณ์ ABX ตามที่คลาร์กสรุปไว้[2]โดยที่อุปกรณ์ให้ข้อมูลซึ่งช่วยให้ผู้รับการทดลองระบุแหล่งที่มาได้ การขาดความโปร่งใสของฟิกซ์เจอร์ ABX ทำให้เกิดปัญหาที่คล้ายกัน

เนื่องจากการทดสอบการได้ยินและการทดสอบทางประสาทสัมผัสอื่น ๆ อาศัยหน่วยความจำระยะสั้นซึ่งใช้เวลาเพียงไม่กี่วินาที จึงเป็นสิ่งสำคัญที่ฟิกซ์เจอร์ทดสอบจะช่วยให้ผู้รับการทดสอบสามารถระบุช่วงสั้นๆ ที่สามารถเปรียบเทียบได้อย่างรวดเร็ว การปรากฏและข้อบกพร่องของอุปกรณ์สวิตช์จะต้องถูกกำจัดออกไปเช่นเดียวกัน เนื่องจากพวกมันอาจครอบงำหรือขัดขวางสิ่งเร้าที่กำลังทดสอบในสิ่งที่เก็บไว้ในหน่วยความจำระยะสั้นของอาสาสมัคร

ทางเลือก

การประเมินการบีบอัดเสียงด้วยอัลกอริทึม

เนื่องจากการทดสอบ ABX ต้องใช้มนุษย์ในการประเมินตัวแปลงสัญญาณเสียงที่สูญเสียข้อมูล จึงใช้เวลานานและมีค่าใช้จ่ายสูง ดังนั้นจึงมีการพัฒนาวิธีการที่ถูกกว่า เช่นPEAQซึ่งเป็นการดำเนินการตาม ODG

มุสรา

ในMUSHRAหัวข้อจะถูกนำเสนอด้วยข้อมูลอ้างอิง (มีป้ายกำกับ) ตัวอย่างการทดสอบจำนวนหนึ่ง เวอร์ชันอ้างอิงที่ซ่อนอยู่ และจุดยึดอย่างน้อยหนึ่งจุด มาตราส่วน 0-100 RATING ทำให้สามารถให้คะแนนความแตกต่างเพียงเล็กน้อย และเวอร์ชันที่ซ่อนอยู่ยังคงให้การตรวจสอบการเลือกปฏิบัติ

การทดสอบการเลือกปฏิบัติ

วิธีทั่วไปทางเลือกใช้ในการทดสอบการเลือกปฏิบัติเช่น การเปรียบเทียบแบบคู่ การทดสอบแบบดูโอ-ทรีโอ และการทดสอบสามเหลี่ยม ในจำนวนนี้ การทดสอบแบบดูโอ-ทรีโอและแบบสามเหลี่ยมนั้นใกล้เคียงกับการทดสอบ ABX เป็นพิเศษ แผนผัง:

ดูโอ–ทรีโอ
AXY – หนึ่งรู้จัก สองไม่รู้ (หนึ่งเท่ากับ A อื่น ๆ เท่ากับ B) การทดสอบคือสิ่งที่ไม่รู้จักเป็นที่รู้จัก: X = A (และ Y = B) หรือ Y = A (และ X = B)
สามเหลี่ยม
XXY – ค่าที่ไม่ทราบค่าสามค่า (สองค่าคือ A และหนึ่งค่าคือ B หรือหนึ่งค่าคือ A และ 2 รายการคือ B) การทดสอบซึ่งเป็นค่าคี่อย่างใดอย่างหนึ่ง: Y = 1, Y = 2 หรือ Y = 3

ในบริบทนี้ การทดสอบ ABX เรียกอีกอย่างว่า "duo–trio" ในโหมด "การอ้างอิงที่สมดุล" - ทั้งสองที่รู้จักกันจะถูกนำเสนอเป็นข้อมูลอ้างอิง แทนที่จะเป็นเพียงรายการเดียว [6]

ดูเพิ่มเติม

อ้างอิง

  1. ^ มันสัน วอชิงตัน; การ์ดเนอร์, มาร์ค บี. (1950). "มาตรฐานการทดสอบการได้ยิน". วารสารสมาคมเสียงแห่งอเมริกา . สมาคมเสียงแห่งอเมริกา (ASA) 22 (5): 675–675. ดอย : 10.1121/1.1917190 . ISSN  0001-4966 .
  2. อรรถa b c คลาร์ก เดวิด (1 พ.ค. 2525) "การทดสอบอัตนัยที่มีความละเอียดสูงโดยใช้เครื่องเปรียบเทียบแบบตาบอดสองด้าน" . วารสารสมาคมวิศวกรรมเสียง . 30 (5): 330–338 . สืบค้นเมื่อ8 ตุลาคม 2559 .
  3. ^ a b คู่มือผู้ใช้ QSC ABX Comparator (1998) น. 10
  4. เดวิด คาร์ลสตรอม. "ความน่าจะเป็นของผลการทดลองเหมือนกับการเดาแบบสุ่ม " เว็บเพจเอบีเอ็กซ์ สืบค้นเมื่อ2011-12-14 .] ที่
  5. ^ "คำแนะนำ ITU-R BS.1116-2" (PDF ) สืบค้นเมื่อ8 ตุลาคม 2559 .
  6. ^ เมลการ์ด มอร์เทน; Gail Vance Civille; บี. โธมัส คาร์ (1999). เทคนิคการประเมินทางประสาทสัมผัส (3 ed.) ซีอาร์ซี เพรส. น. 68–70. ISBN 0-8493-0276-5.