MP3

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

MP3
Mp3.svg
นามสกุลไฟล์.mp3
.bit(ก่อนปี 2538) [1]
ประเภทสื่ออินเทอร์เน็ต
  • audio/mpeg[2]
  • audio/MPA[3]
  • audio/mpa-robust[4]
พัฒนาโดยKarlheinz Brandenburg , Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill , Jürgen Herre และHarald Popp (ทั้งหมดของFraunhofer Society ), [5]และอื่นๆ
เปิดตัวครั้งแรก6 ธันวาคม 2534 ; 30 ปีที่แล้ว[6] ( 1991-12-06 )
รุ่นล่าสุด
ISO/IEC 13818-3: 1998
เมษายน 1998 ; 24 ปีที่แล้ว ( 1998-04 )
ประเภทของรูปแบบสูญเสีย เสียง
ประกอบด้วยMPEG-ES
มาตรฐาน
เปิดรูปแบบ ?ใช่[9]
รูปแบบฟรี?สิทธิบัตรที่หมดอายุ[10]

MP3 (อย่างเป็นทางการMPEG-1 Audio Layer IIIหรือMPEG-2 Audio Layer III ) [4]เป็นรูปแบบการเข้ารหัสสำหรับเสียงดิจิทัลที่พัฒนาโดยFraunhofer Societyในเยอรมนีเป็นส่วนใหญ่ โดยได้รับการสนับสนุนจากนักวิทยาศาสตร์ดิจิทัลอื่นๆ ในสหรัฐอเมริกาและที่อื่นๆ เดิมกำหนดเป็นรูปแบบเสียงที่สามของมาตรฐาน MPEG-1ยังคงรักษาและขยายเพิ่มเติม โดยกำหนดบิตเรตเพิ่มเติมและรองรับช่องสัญญาณเสียง เพิ่มเติม เป็นรูปแบบเสียงที่สามของMPEG-2 ที่ตามมามาตรฐาน. เวอร์ชันที่สามเรียกว่า MPEG 2.5 ซึ่งขยายเพื่อรองรับอัตราบิตที่ต่ำกว่าได้ดีกว่า มักถูกนำไปใช้งาน แต่ไม่ใช่มาตรฐานที่รู้จัก

MP3 (หรือmp3 ) เป็นรูปแบบไฟล์โดยทั่วไปกำหนดไฟล์ที่มีสตรีมเบื้องต้นของข้อมูลที่เข้ารหัส MPEG-1 Audio หรือ MPEG-2 Audio โดยไม่มีความซับซ้อนอื่น ๆ ของมาตรฐาน MP3

ในส่วนที่เกี่ยวกับการบีบอัดเสียง (ด้านมาตรฐานที่ชัดเจนที่สุดสำหรับผู้ใช้ปลายทาง และเป็นที่ทราบกันดีอยู่แล้ว) MP3 ใช้การบีบอัดข้อมูลแบบสูญเสียข้อมูลเพื่อเข้ารหัสข้อมูลโดยใช้การประมาณที่ไม่แน่นอนและการละทิ้งข้อมูลบางส่วน วิธีนี้ช่วยลดขนาดไฟล์ได้มากเมื่อเทียบกับเสียงที่ไม่บีบอัด การผสมผสานของขนาดที่เล็กและความเที่ยงตรงที่ยอมรับได้ทำให้เกิดความเจริญในการเผยแพร่เพลงทางอินเทอร์เน็ตในช่วงกลางถึงปลายทศวรรษ 1990 โดย MP3 ทำหน้าที่เป็นเทคโนโลยีที่เอื้ออำนวยในช่วงเวลาที่แบนด์วิดท์และพื้นที่จัดเก็บข้อมูลยังอยู่ในระดับพรีเมียม ในไม่ช้ารูปแบบ MP3 ก็เกี่ยวข้องกับการโต้เถียงเกี่ยวกับการละเมิดลิขสิทธิ์ การละเมิดลิขสิทธิ์เพลงและการริป / การแชร์ ไฟล์บริการMP3.comและNapsterเป็นต้น ด้วยการถือกำเนิดของเครื่องเล่นสื่อแบบพกพาหมวดหมู่ผลิตภัณฑ์รวมถึงสมาร์ทโฟนการรองรับ MP3 ยังคงใกล้เคียงกับสากล

การบีบอัด MP3 ทำงานโดยลด (หรือประมาณ) ความแม่นยำของส่วนประกอบบางอย่างของเสียงที่พิจารณา (โดยการวิเคราะห์ทางจิตอะคูสติก) ว่าเกินความสามารถในการได้ยินของมนุษย์ส่วนใหญ่ วิธีนี้มักเรียกว่าการเข้ารหัสการรับรู้หรือการสร้างแบบจำลองทางจิต [11]จากนั้น ข้อมูลเสียงที่เหลือจะถูกบันทึกในลักษณะที่ประหยัดพื้นที่ โดยใช้อัลกอริธึมMDCTและFFT เมื่อเทียบกับเสียงดิจิตอลคุณภาพซีดี การบีบอัด MP3 สามารถลดขนาดลงได้ 75 ถึง 95% ตัวอย่างเช่น การเข้ารหัส MP3 ที่บิตเรตคงที่ที่ 128 kbit/s จะส่งผลให้ไฟล์มีขนาดประมาณ 9% ของขนาดเสียงซีดีต้นฉบับ (12)ในช่วงต้นทศวรรษ 2000 เครื่องเล่นคอมแพคดิสก์รองรับการเล่นไฟล์ MP3 ในซีดีข้อมูลมากขึ้น

กลุ่มผู้เชี่ยวชาญด้านภาพเคลื่อนไหว (MPEG) ได้ออกแบบ MP3 ให้เป็นส่วนหนึ่งของมาตรฐานMPEG-1และต่อมาคือMPEG-2 MPEG-1 Audio (MPEG-1 ตอนที่ 3) ซึ่งรวมถึง MPEG-1 Audio Layer I, II และ III ได้รับการอนุมัติให้เป็นร่างคณะกรรมการสำหรับมาตรฐาน ISO / IECในปี 1991 [13] [14]ได้รับการสรุปในปี 1992 [15]และเผยแพร่ในปี 1993 ในชื่อ ISO/IEC 11172-3:1993 [7]ส่วนขยายเสียง MPEG-2 (MPEG-2 ตอนที่ 3) ที่มีตัวอย่างและอัตราบิตที่ต่ำกว่าได้รับการตีพิมพ์ในปี 1995 ในชื่อ ISO/IEC 13818-3: 1995 [8] [16]จำเป็นต้องมีการปรับเปลี่ยนเพียงเล็กน้อยกับตัวถอดรหัส MPEG-1 ที่มีอยู่ (การรับรู้ของบิต MPEG-2 ในส่วนหัวและการเพิ่มตัวอย่างและอัตราบิตที่ต่ำกว่าใหม่)

ประวัติ

ความเป็นมา

อัลกอริธึม การบีบอัดข้อมูลเสียงแบบสูญเสีย MP3 ใช้ประโยชน์จากข้อจำกัดด้านการรับรู้ของการได้ยินของมนุษย์ที่เรียกว่าการปิดบังการได้ยิน ในปี พ.ศ. 2437 อัลเฟรด เอ็ม. เมเยอร์นักฟิสิกส์ชาวอเมริกันรายงานว่า โทนเสียงที่ความถี่ต่ำกว่าอาจไม่สามารถได้ยินได้ [17]ในปีพ.ศ. 2502 Richard Ehmer ได้อธิบายเส้นโค้งการได้ยินที่สมบูรณ์เกี่ยวกับปรากฏการณ์นี้ [18]ระหว่างปี 1967 และ 1974 Eberhard Zwickerทำงานในด้านการปรับและการปิดบังคลื่นความถี่วิกฤต[19] [20]ซึ่งสร้างจากการวิจัยพื้นฐานในพื้นที่จากHarvey Fletcherและผู้ร่วมงานของเขาที่Bell Labs. (21)

ครั้งแรกที่ใช้ Perceptual coding ใน การ บีบอัดคำพูด ด้วย การเข้ารหัสแบบทำนายผลเชิงเส้น (LPC) [22]ซึ่งมีต้นกำเนิดในผลงานของFumitada Itakura ( มหาวิทยาลัยนาโกย่า ) และ Shuzo Saito ( Nippon Telegraph and Telephone ) ในปี 2509 [23]ในปี 2521 , Bishnu S. AtalและManfred R. Schroederที่ Bell Labs ได้เสนอตัวแปลงสัญญาณ เสียงพูดของ LPC ซึ่งเรียกว่าการเข้ารหัสแบบคาดการณ์ล่วงหน้าแบบปรับได้ ซึ่งใช้อัลกอริธึมการเข้ารหัสทางจิตอะคูสติกโดยใช้ประโยชน์จากคุณสมบัติปิดบังหูของมนุษย์ [22] [24]การปรับให้เหมาะสมเพิ่มเติมโดย Schroeder และ Atal กับ JL Hall ได้รับการรายงานในภายหลังในเอกสารปี 1979 [25]ในปีเดียวกันนั้นเอง แมสซาชูเซตส์ แครสเนอร์ ได้เสนอตัวแปลงสัญญาณปิดบังจิตอะคูสติก[ 26]ผู้ตีพิมพ์และผลิตฮาร์ดแวร์สำหรับการพูดรายงานทางเทคนิค[27]ไม่ได้ส่งอิทธิพลต่อกระแสหลักของการพัฒนาตัวแปลงสัญญาณทางจิตในทันที

การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งเป็นประเภทของการแปลงรหัสสำหรับการบีบอัดแบบสูญเสียข้อมูลเสนอโดยNasir Ahmedในปี 1972 ได้รับการพัฒนาโดย Ahmed ร่วมกับ T. Natarajan และKR Raoในปี 1973 พวกเขาตีพิมพ์ผลงานของพวกเขาในปี 1974 [28] [29] [30]สิ่งนี้นำไปสู่การพัฒนาการแปลงโคไซน์แบบไม่ต่อเนื่องที่ดัดแปลง (MDCT) ที่เสนอโดย JP Princen, AW Johnson และ AB Bradley ในปี 1987 [31]หลังจากงานก่อนหน้านี้ โดย Princen และ Bradley ในปี 1986 [32]ภายหลัง MDCT ได้กลายเป็นส่วนสำคัญของอัลกอริธึม MP3 [33]

Ernst Terhardt และคณะ สร้างอัลกอริธึมที่อธิบายการปกปิดการได้ยินด้วยความแม่นยำสูงในปี 1982 [34]งานนี้เพิ่มรายงานที่หลากหลายจากผู้เขียนย้อนหลังไปถึงเฟลตเชอร์ และงานที่กำหนดอัตราส่วนวิกฤตและแบนด์วิธที่สำคัญในขั้นต้น

ในปี 1985 Atal และ Schroeder ได้นำเสนอการทำนายเชิงเส้นด้วยโค้ดตื่นเต้น (CELP) ซึ่งเป็นอัลกอริธึมการเข้ารหัสคำพูดเพื่อการรับรู้ที่ใช้ LPC พร้อมการปิดบังการได้ยินซึ่งมีอัตราส่วนการบีบอัดข้อมูลที่ สำคัญ ในช่วงเวลานั้น [22] วารสารอ้างอิง ของIEEE เรื่อง Selected Areas in Communicationsได้รายงานเกี่ยวกับอัลกอริธึมการบีบอัดเสียงที่หลากหลาย (ส่วนใหญ่ที่รับรู้ได้) ในปี 1988 [35]ฉบับ "Voice Coding for Communications" ที่ตีพิมพ์ในเดือนกุมภาพันธ์ พ.ศ. 2531 ได้รายงานเกี่ยวกับ ก่อตั้ง เทคโนโลยีการบีบอัดบิตเสียงที่ใช้งานได้[35]บางส่วนใช้การปกปิดการได้ยินเป็นส่วนหนึ่งของการออกแบบพื้นฐาน และบางรายการแสดงการใช้งานฮาร์ดแวร์แบบเรียลไทม์

พัฒนาการ

การกำเนิดของเทคโนโลยี MP3 มีการอธิบายไว้อย่างครบถ้วนในบทความจากศาสตราจารย์ Hans Musmann [36]ซึ่งเป็นประธานกลุ่ม ISO MPEG Audio เป็นเวลาหลายปี ในเดือนธันวาคม พ.ศ. 2531 MPEG ได้เรียกร้องให้มีมาตรฐานการเข้ารหัสเสียง ในเดือนมิถุนายน พ.ศ. 2532 มีการส่งอัลกอริธึมการเข้ารหัสเสียง 14 ชุด เนื่องจากมีความคล้ายคลึงกันบางประการระหว่างข้อเสนอการเข้ารหัสเหล่านี้ พวกเขาจึงถูกจัดกลุ่มเป็นกลุ่มพัฒนาสี่กลุ่ม กลุ่มแรกคือ ASPEC โดยFraunhofer Gesellschaft , AT&T , France Telecom , Deutsche และThomson -Brandt กลุ่มที่สองคือMUSICAMโดยMatsushita , CCETT , ITT และPhilips กลุ่มที่สามคือ ATAC โดยFujitsu, JVC , NECและSony _ และกลุ่มที่สี่คือSB-ADPCMโดยNTTและ BTRL (36)

รุ่นก่อนหน้าของ MP3 คือ "Optimum Coding in the Frequency Domain" (OCF), [37]และ Perceptual Transform Coding (PXFM) [38]ตัวแปลงสัญญาณทั้งสองนี้ พร้อมด้วยการสนับสนุนการสลับบล็อกจาก Thomson-Brandt ถูกรวมเข้ากับตัวแปลงสัญญาณที่เรียกว่า ASPEC ซึ่งถูกส่งไปยัง MPEG และได้รับรางวัลการแข่งขันด้านคุณภาพ แต่นั่นถูกปฏิเสธโดยไม่ได้ตั้งใจว่าซับซ้อนเกินไปที่จะนำไปใช้ การใช้งานจริงครั้งแรกของตัวเข้ารหัสสัญญาณเสียง (OCF) ในฮาร์ดแวร์ (ฮาร์ดแวร์ของ Krasner นั้นยุ่งยากและช้าเกินไปสำหรับการใช้งานจริง) เป็นการนำ coder การแปลงสภาพจิตไปใช้โดยอิงจากชิป Motorola 56000 DSP

รูปแบบและเทคโนโลยี MP3 รุ่นก่อนอื่นจะพบได้ในตัวแปลงสัญญาณการรับรู้ MUSICAM ที่อิงจากตัวกรองแถบความถี่ย่อยเลขคณิตจำนวนเต็ม 32 ซึ่งขับเคลื่อนโดยแบบจำลองทางจิต ได้รับการออกแบบมาสำหรับ Digital Audio Broadcasting (วิทยุดิจิทัล) และทีวีดิจิทัลเป็นหลัก และหลักการพื้นฐานของมันถูกเปิดเผยต่อชุมชนวิทยาศาสตร์โดย CCETT (ฝรั่งเศส) และ IRT (เยอรมนี) ในแอตแลนต้าระหว่างการประชุม IEEE-ICASSP ในปี 1991 [39]หลังจากทำงานกับ MUSICAM กับMatsushitaและ Philips มาตั้งแต่ปี 1989 [36]

ตัวแปลงสัญญาณนี้รวมอยู่ในระบบการแพร่ภาพโดยใช้การมอดูเลต COFDM ได้รับการสาธิตบนอากาศและในสนาม[40]กับ Radio Canada และ CRC Canada ระหว่างการแสดง NAB (ลาสเวกัส) ในปี 1991 การใช้งานส่วนเสียงของระบบการแพร่ภาพนี้มีพื้นฐานมาจาก บนตัวเข้ารหัสแบบสองชิป (ตัวหนึ่งสำหรับการแปลงแบนด์ย่อย อีกตัวสำหรับรุ่นทางจิตที่ออกแบบโดยทีมของG. Stoll (IRT ประเทศเยอรมนี) ซึ่งต่อมารู้จักกันในชื่อรุ่นจิตอะคูสติก I) และตัวถอดรหัสแบบเรียลไทม์โดยใช้ชิปMotorola 56001 DSP ที่ทำงานอยู่ ซอฟต์แวร์เลขคณิตจำนวนเต็มออกแบบโดยทีมงานของ YF Dehery ( CCETT, ฝรั่งเศส). ความเรียบง่ายของตัวถอดรหัสที่สอดคล้องกันพร้อมกับคุณภาพเสียงระดับสูงของตัวแปลงสัญญาณนี้โดยใช้ความถี่สุ่มตัวอย่าง 48 kHz เป็นครั้งแรก รูปแบบอินพุต 20 บิต/ตัวอย่าง (มาตรฐานการสุ่มตัวอย่างสูงสุดที่มีในปี 1991 เข้ากันได้กับระบบดิจิตอลระดับมืออาชีพ AES/EBU มาตรฐานสตูดิโออินพุต) เป็นเหตุผลหลักในการนำคุณลักษณะของ MUSICAM มาใช้เป็นคุณสมบัติพื้นฐานสำหรับตัวแปลงสัญญาณการบีบอัดเพลงดิจิทัลขั้นสูงในภายหลัง

ในระหว่างการพัฒนาซอฟต์แวร์เข้ารหัส MUSICAM ทีมของ Stoll และ Dehery ได้ใช้ชุดสื่อการประเมินเสียงคุณภาพสูงอย่างถี่ถ้วน[41]ที่คัดเลือกโดยกลุ่มผู้เชี่ยวชาญด้านเสียงจาก European Broadcasting Union และต่อมาใช้เป็นข้อมูลอ้างอิงสำหรับการประเมิน ของตัวแปลงสัญญาณการบีบอัดเพลง พบว่าเทคนิคการเข้ารหัสซับแบนด์มีประสิทธิภาพ ไม่เพียงแต่สำหรับการเข้ารหัสเพื่อการรับรู้ของวัสดุเสียงคุณภาพสูงเท่านั้น แต่โดยเฉพาะอย่างยิ่งสำหรับการเข้ารหัสวัสดุเสียงเพอร์คัชชันที่สำคัญ (กลอง, สามเหลี่ยม,...) เนื่องจากเอฟเฟกต์การกำบังชั่วคราวเฉพาะ ของ MUSICAM sub-band filterbank (ข้อได้เปรียบนี้เป็นคุณลักษณะเฉพาะของเทคนิคการเข้ารหัสการแปลงแบบสั้น)

ในฐานะนักศึกษาปริญญาเอกที่มหาวิทยาลัย Erlangen-Nurembergของ เยอรมนี Karlheinz Brandenburgเริ่มทำงานเกี่ยวกับการบีบอัดเพลงดิจิทัลในช่วงต้นทศวรรษ 1980 โดยเน้นที่การรับรู้ของผู้คนในดนตรี เขาสำเร็จการศึกษาระดับปริญญาเอกในปี 1989 [42] MP3 สืบเชื้อสายมาจาก OCF และ PXFM โดยตรง ซึ่งแสดงถึงผลลัพธ์ของการทำงานร่วมกันของ Brandenburg — ทำงานเป็นนักวิจัยหลังปริญญาเอกที่ AT&T-Bell Labs กับ James D. Johnston ("JJ") ของ AT&T-Bell Labs — กับFraunhofer Institute for Integrated Circuits , Erlangen (ซึ่งเขาทำงานร่วมกับBernhard Grillและนักวิจัยอีกสี่คน – "The Original Six" [43]) โดยมีส่วนสนับสนุนเล็กน้อยจากสาขา MP2 ของผู้เขียนโค้ดกลุ่มย่อย psychoacoustic ในปี 1990 บรันเดนบูร์กเป็นผู้ช่วยศาสตราจารย์ที่ Erlangen-Nuremberg ขณะอยู่ที่นั่น เขายังคงทำงานเกี่ยวกับการบีบอัดเพลงกับนักวิทยาศาสตร์ที่สถาบันHeinrich HerzของFraunhofer Society ในปี 1993 เขาได้ร่วมงานกับ Fraunhofer HHI [42]เพลง " Tom's Diner " โดยSuzanne Vegaเป็นเพลงแรกที่ Karlheinz Brandenburg ใช้ในการพัฒนารูปแบบ MP3 บรันเดนบูร์กนำเพลงนั้นมาใช้เพื่อการทดสอบ โดยฟังซ้ำแล้วซ้ำเล่าทุกครั้งที่เขาปรับปรุงรูปแบบ ตรวจสอบให้แน่ใจว่าเพลงนี้ไม่ส่งผลเสียต่อความละเอียดอ่อนของเสียงของเวก้า [44] ดังนั้นเขาจึงขนานนามเวก้าว่าเป็น "มารดาของ MP3" [45]

การทำให้เป็นมาตรฐาน

ในปี 1991 มีข้อเสนอสองข้อเสนอที่ได้รับการประเมินสำหรับมาตรฐานเสียง MPEG: MUSICAM ( รูปแบบการถามที่ดัดแปลงUสากลS ubband I ntegrated C oding A nd M ultiplexing) และ ASPEC ( A daptive S pectral P erceptual E ntropy C oding ) . เทคนิค MUSICAM เสนอโดยฟิลิปส์ (เนเธอร์แลนด์), CCETT (ฝรั่งเศส), สถาบันเทคโนโลยีการออกอากาศ (เยอรมนี) และมัตสึชิตะ (ญี่ปุ่น) [46]ได้รับเลือกเนื่องจากความเรียบง่ายและความทนทานต่อข้อผิดพลาด ตลอดจนประสิทธิภาพในการคำนวณในระดับสูง [47]รูปแบบ MUSICAM ตามการเข้ารหัสย่านความถี่ย่อยกลายเป็นพื้นฐานสำหรับรูปแบบการบีบอัดเสียง MPEG ที่รวมเอาโครงสร้างเฟรม รูปแบบส่วนหัว อัตราตัวอย่าง ฯลฯ

ในขณะที่เทคโนโลยีและแนวคิดของ MUSICAM ส่วนใหญ่รวมอยู่ในคำจำกัดความของ MPEG Audio Layer I และ Layer II ตัวกรองธนาคารเพียงอย่างเดียวและโครงสร้างข้อมูลตามกรอบตัวอย่าง 1152 (รูปแบบไฟล์และสตรีมเชิงไบต์) ของ MUSICAM ยังคงอยู่ใน Layer III ( รูปแบบ MP3) ซึ่งเป็นส่วนหนึ่งของธนาคารตัวกรอง ไฮบริดที่ไม่มีประสิทธิภาพในการคำนวณ ภายใต้การนำของศาสตราจารย์ Musmann แห่งLeibniz University Hannoverการแก้ไขมาตรฐานได้มอบหมายให้ Leon van de Kerkhof (เนเธอร์แลนด์), Gerhard Stoll (เยอรมนี) และ Yves-François Dehery (ฝรั่งเศส) ซึ่งทำงานใน Layer I และ Layer ครั้งที่สอง ASPEC เป็นข้อเสนอร่วมกันของ AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society และCNET [48]ให้ประสิทธิภาพการเข้ารหัสสูงสุด

คณะทำงานประกอบด้วย van de Kerkhof, Stoll, Leonardo Chiariglione ( CSELT VP for Media), Yves-François Dehery, Karlheinz Brandenburg (เยอรมนี) และ James D. Johnston (สหรัฐอเมริกา) นำแนวคิดจาก ASPEC รวมตัวกรองจาก Layer II ได้เพิ่มแนวคิดของตนเองบางอย่าง เช่น การเข้ารหัสสเตอริโอร่วมของ MUSICAM และสร้างรูปแบบ MP3 ซึ่งได้รับการออกแบบมาเพื่อให้ได้คุณภาพที่เท่ากันที่ 128  kbit/sเป็นMP2ที่ 192 kbit/s

อัลกอริทึมสำหรับ MPEG-1 Audio Layer I, II และ III ได้รับการอนุมัติในปี 1991 [13] [14]และสิ้นสุดในปี 1992 [15]โดยเป็นส่วนหนึ่งของMPEG-1ซึ่งเป็นชุดมาตรฐานชุดแรกโดยMPEGซึ่งส่งผลให้มีมาตรฐานสากลISO / IEC 11172-3 (aka MPEG-1 AudioหรือMPEG-1 Part 3 ) เผยแพร่ในปี 1993 [7]ไฟล์หรือสตรีมข้อมูลที่สอดคล้องกับมาตรฐานนี้ต้องรองรับอัตราตัวอย่างที่ 48k, 44100 และ 32k และยังคงได้รับการสนับสนุน โดยเครื่องเล่น MP3และตัวถอดรหัสปัจจุบัน ดังนั้นรุ่นแรกของ MP3 จึงกำหนด14 × 3 = 42การตีความโครงสร้างข้อมูลเฟรม MP3 และเลย์เอาต์ขนาด

การทำงานเพิ่มเติมเกี่ยวกับเสียง MPEG [49]ได้เสร็จสิ้นลงในปี 1994 โดยเป็นส่วนหนึ่งของชุดที่สองของมาตรฐาน MPEG, MPEG-2ซึ่งเป็นที่รู้จักอย่างเป็นทางการมากขึ้นในชื่อมาตรฐานสากลISO/IEC 13818-3 (aka MPEG-2 ตอนที่ 3หรือMPEG- ที่เข้ากันได้แบบย้อนหลัง 2 AudioหรือMPEG-2 Audio BC [16] ) เผยแพร่ครั้งแรกในปี 1995 [8] [50]MPEG-2 ตอนที่ 3 (ISO/IEC 13818-3) กำหนดอัตราบิตเพิ่มเติม 42 และอัตราตัวอย่างสำหรับ MPEG-1 Audio Layer I, II และ III อัตราการสุ่มตัวอย่างใหม่นั้นเท่ากับครึ่งหนึ่งของที่กำหนดไว้ใน MPEG-1 Audio การลดอัตราการสุ่มตัวอย่างนี้ช่วยลดความเที่ยงตรงของความถี่ที่มีอยู่ลงครึ่งหนึ่ง ในขณะเดียวกันก็ลดอัตราบิตลง 50% เช่นเดียวกัน MPEG-2 ตอนที่ 3 ยังปรับปรุงเสียงของ MPEG-1 โดยอนุญาตให้เข้ารหัสโปรแกรมเสียงที่มีมากกว่าสองช่องสัญญาณ สูงสุด 5.1 หลายช่องสัญญาณ [49]การเข้ารหัส MP3 ด้วย MPEG-2 ส่งผลให้มีการสร้างแบนด์วิดท์ครึ่งหนึ่งของ MPEG-1 ที่เหมาะสมสำหรับเปียโนและการร้องเพลง

สตรีมข้อมูลรูปแบบ "MP3" รุ่นที่สาม (ไฟล์) ขยาย แนวคิดและการใช้งาน MPEG-2แต่ได้รับการตั้งชื่อว่าMPEG-2.5เสียง เนื่องจาก MPEG-3 มีความหมายต่างกันไปแล้ว ส่วนขยายนี้พัฒนาขึ้นที่ Fraunhofer IIS ซึ่งเป็นผู้ถือสิทธิบัตรที่จดทะเบียนของ MP3 โดยลดช่องซิงค์เฟรมในส่วนหัวของ MP3 จาก 12 เป็น 11 บิต ในการเปลี่ยนจาก MPEG-1 เป็น MPEG-2 นั้น MPEG-2.5 จะเพิ่มอัตราการสุ่มตัวอย่างเพิ่มเติมให้เท่ากับครึ่งหนึ่งของที่มีอยู่โดยใช้ MPEG-2 มันจึงขยายขอบเขตของ MP3 เพื่อรวมคำพูดของมนุษย์และแอปพลิเคชันอื่น ๆ แต่ต้องการเพียง 25% ของแบนด์วิดท์ (การสร้างความถี่) ที่เป็นไปได้โดยใช้อัตราการสุ่มตัวอย่าง MPEG-1 แม้ว่าจะไม่ใช่มาตรฐาน ISO ก็ตาม แต่ MPEG-2.5 ได้รับการสนับสนุนอย่างกว้างขวางจากเครื่องเล่นเสียงดิจิตอลทั้งภาษาจีนและแบรนด์เนมราคาไม่แพง ตลอดจนเครื่องเข้ารหัส MP3 ที่ใช้ซอฟต์แวร์คอมพิวเตอร์ ( LAME ) ตัวถอดรหัส (FFmpeg) และเครื่องเล่น (MPC) โดยเพิ่ม3 × 8 = 24ประเภทเฟรม MP3 เพิ่มเติม ดังนั้น MP3 แต่ละรุ่นจึงรองรับอัตราการสุ่มตัวอย่าง 3 แบบซึ่งเท่ากับครึ่งหนึ่งของรุ่นก่อนหน้าสำหรับไฟล์รูปแบบ MP3 ทั้งหมด 9 แบบ ตารางเปรียบเทียบอัตราตัวอย่างระหว่าง MPEG-1, 2 และ 2.5 มีให้ในบทความต่อไป [51] [52]รองรับ MPEG-2.5 โดย LAME (ตั้งแต่ปี 2000), Media Player Classic (MPC), iTunes และ FFmpeg

MPEG-2.5 ไม่ได้พัฒนาโดย MPEG (ดูด้านบน) และไม่เคยได้รับการอนุมัติให้เป็นมาตรฐานสากล MPEG-2.5 จึงเป็นส่วนขยายที่ไม่เป็นทางการหรือเป็นกรรมสิทธิ์ของรูปแบบ MP3 กระนั้นก็ยังแพร่หลายและเป็นประโยชน์อย่างยิ่งโดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชันคำพูดของมนุษย์ที่มีอัตราบิตต่ำ

เวอร์ชัน MPEG Audio Layer III [7] [8] [14] [51] [52] [53]
เวอร์ชั่น มาตรฐานสากล[*] ฉบับพิมพ์ครั้งแรกวันที่เผยแพร่สู่สาธารณะ ฉบับล่าสุดวันที่เผยแพร่สู่สาธารณะ
MPEG-1 Audio Layer III ISO/IEC 11172-3 (MPEG-1 ตอนที่ 3) 2536
MPEG-2 Audio Layer III ISO/IEC 13818-3 (MPEG-2 ตอนที่ 3) 1995 1998
เลเยอร์เสียง MPEG-2.5 III ไม่เป็นมาตรฐาน มีกรรมสิทธิ์ 2000 2008

  • มาตรฐาน ISO ISO/IEC 11172-3 (หรือที่เรียกว่า MPEG-1 Audio) ได้กำหนดรูปแบบไว้สามรูปแบบ: MPEG-1 Audio Layer I, Layer II และ Layer III มาตรฐาน ISO ISO/IEC 13818-3 (หรือที่เรียกว่า MPEG-2 Audio) กำหนดเวอร์ชันขยายของ MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II และ Layer III ไม่ควรสับสนระหว่างเสียง MPEG-2 (MPEG-2 ตอนที่ 3) กับ MPEG-2 AAC (MPEG-2 ตอนที่ 7 – ISO/IEC 13818-7) [16]

ประสิทธิภาพการบีบอัดของตัวเข้ารหัสโดยทั่วไปถูกกำหนดโดยอัตราบิต เนื่องจากอัตราการบีบอัดขึ้นอยู่กับความลึกของบิตและอัตราการสุ่มตัวอย่างของสัญญาณอินพุต อย่างไรก็ตาม อัตราส่วนการอัดมักจะถูกตีพิมพ์ พวกเขาอาจใช้ พารามิเตอร์ Compact Disc (CD) เป็นข้อมูลอ้างอิง (44.1 kHz , 2 ช่องสัญญาณที่ 16 บิตต่อช่องสัญญาณหรือ 2x16 บิต) หรือบางครั้งใช้ พารามิเตอร์ SP ของ เทปเสียงดิจิตอล (DAT) (48 kHz, 2x16 บิต) . อัตราการบีบอัดที่มีการอ้างอิงแบบหลังนี้สูงกว่า ซึ่งแสดงให้เห็นถึงปัญหาในการใช้คำว่าอัตราส่วนการอัดสำหรับตัวเข้ารหัสแบบสูญเสีย

Karlheinz Brandenburg ใช้ซีดีเพลง " Tom's Diner " ของ Suzanne Vega เพื่อประเมินและปรับแต่งอัลกอริธึ มการบีบอัด MP3 เพลงนี้ได้รับเลือกเนื่องจากมีลักษณะเกือบเป็นโมโนโฟนิกและมีเนื้อหาสเปกตรัมกว้าง ทำให้ง่ายต่อการได้ยินความไม่สมบูรณ์ในรูปแบบการบีบอัดในระหว่างการเล่น แทร็กนี้มีคุณสมบัติที่น่าสนใจตรงที่ทั้งสองแชนเนลเกือบจะเหมือนกันแต่ไม่สมบูรณ์ นำไปสู่กรณีที่อาการซึมเศร้าระดับ Binaural Masking ทำให้เกิดการเปิดโปงพื้นที่ของสิ่งรบกวนทางเสียง เว้นแต่ว่าตัวเข้ารหัสจะรับรู้สถานการณ์ได้อย่างเหมาะสมและทำการแก้ไขที่คล้ายกับสิ่งเหล่านั้น รายละเอียดในรูปแบบจิตอะคูสติก MPEG-2 AAC ข้อความที่ตัดตอนมาของเสียงที่สำคัญกว่านี้ ( glockenspiel ,สามเหลี่ยมหีบเพลงฯลฯ) นำมาจาก คอมแพคดิสก์อ้างอิง EBU V3/SQAM และถูกใช้โดยวิศวกรเสียงมืออาชีพเพื่อประเมินคุณภาพส่วนตัวของรูปแบบ MPEG Audio LAME เป็นตัวเข้ารหัส MP3 ที่ทันสมัยที่สุด [ อ้างอิงจำเป็น ] LAME รวมถึงการเข้ารหัสอัตราบิตตัวแปร VBR ซึ่งใช้พารามิเตอร์คุณภาพมากกว่าเป้าหมายอัตราบิต เวอร์ชันที่ใหม่กว่า (2008+) รองรับเป้าหมายคุณภาพ nnn ซึ่งเลือกอัตราการสุ่มตัวอย่าง MPEG-2 หรือ MPEG-2.5 โดยอัตโนมัติตามความเหมาะสมสำหรับการบันทึกเสียงพูดของมนุษย์ที่ต้องการความละเอียดแบนด์วิดท์เพียง 5512 Hz

เผยแพร่สู่สาธารณะ

การใช้งานซอฟต์แวร์จำลองการอ้างอิง ซึ่งเขียนด้วยภาษา C และต่อมารู้จักกันในชื่อISO 11172-5ได้รับการพัฒนา (ในปี 1991–1996) โดยสมาชิกของคณะกรรมการ ISO MPEG Audio เพื่อผลิตไฟล์ MPEG Audio ที่สอดคล้องกับบิต (เลเยอร์ 1, ชั้น 2 ชั้น 3). ได้รับการอนุมัติให้เป็นร่างคณะกรรมการรายงานทางเทคนิคของ ISO/IEC ในเดือนมีนาคม 1994 และพิมพ์เป็นเอกสาร CD 11172-5 ในเดือนเมษายน 1994 [54]ได้รับการอนุมัติเป็นร่างรายงานทางเทคนิค (DTR/DIS) ในเดือนพฤศจิกายน 1994 [55] ]ได้ข้อสรุปในปี 2539 และเผยแพร่เป็นมาตรฐานสากล ISO/IEC TR 11172-5: 1998 ในปี 2541 [56]ซอฟต์แวร์อ้างอิงในภาษา C ได้รับการเผยแพร่ในภายหลังเป็นมาตรฐาน ISO ที่มีให้ใช้งานโดยเสรี [57]การทำงานแบบไม่ใช่เรียลไทม์บนระบบปฏิบัติการหลายระบบ ทำให้สามารถสาธิตการถอดรหัสฮาร์ดแวร์แบบเรียลไทม์ ( บน DSP ) ของเสียงที่บีบอัดได้ การใช้งานเรียลไทม์อื่นๆ ของตัวเข้ารหัสและตัวถอดรหัส MPEG Audio [58]มีให้เพื่อวัตถุประสงค์ในการออกอากาศแบบดิจิทัล (radio DAB , โทรทัศน์DVB ) ต่อเครื่องรับผู้บริโภคและกล่องรับสัญญาณ

เมื่อวันที่ 7 กรกฎาคม พ.ศ. 2537 Fraunhofer Societyได้เปิดตัวซอฟต์แวร์เข้ารหัส MP3 ตัวแรกที่เรียกว่าl3enc [59]นามสกุลไฟล์ .mp3ได้รับเลือกโดยทีมงาน Fraunhofer เมื่อวันที่ 14 กรกฎาคม 1995 (ก่อนหน้านี้ ไฟล์ดังกล่าวมีชื่อว่า . bit ) [1]ด้วยซอฟต์แวร์เรียลไทม์เครื่องเล่น MP3 WinPlay3 (เผยแพร่เมื่อ 9 กันยายน พ.ศ. 2538) หลายคนสามารถเข้ารหัสและเล่นไฟล์ MP3 บนคอมพิวเตอร์ของตนได้ เนื่องจากฮาร์ดไดรฟ์ ที่มีขนาดค่อนข้างเล็ก ในยุคนั้น (≈500–1000 MB ) การบีบอัดแบบสูญเสียข้อมูลจึงจำเป็นต่อการจัดเก็บเพลงของอัลบั้มหลาย ๆ อัลบั้มบนคอมพิวเตอร์ที่บ้านเป็นไฟล์บันทึกแบบเต็ม (ซึ่งต่างจากMIDIโน้ตหรือ ไฟล์ ตัวติดตามที่รวมสัญกรณ์กับการบันทึกสั้น ๆ ของเครื่องดนตรีที่เล่นโน้ตเดียว) ตามที่ Jonathan Sterne นักวิชาการด้านเสียงกล่าวไว้ว่า "แฮ็กเกอร์ชาวออสเตรเลียซื้อl3encโดยใช้บัตรเครดิตที่ขโมยมา จากนั้นแฮ็กเกอร์จึงทำวิศวกรรมย้อนกลับกับซอฟต์แวร์ เขียนอินเทอร์เฟซผู้ใช้ใหม่ และแจกจ่ายซ้ำฟรี โดยตั้งชื่อว่า "ขอบคุณ Fraunhofer" [60]

ตัวอย่างการใช้งาน Fraunhofer

แฮ็กเกอร์ชื่อ SoloH ค้นพบซอร์สโค้ด ของ การใช้การอ้างอิง MPEG "dist10" ไม่นานหลังจากเผยแพร่บนเซิร์ฟเวอร์ของUniversity of Erlangen เขาพัฒนาเวอร์ชันคุณภาพสูงขึ้นและเผยแพร่บนอินเทอร์เน็ต รหัสนี้เริ่มต้นการ ริปซีดีอย่างแพร่หลายและการกระจายเพลงดิจิทัลเป็น MP3 ทางอินเทอร์เน็ต [61] [62] [63] [64]

การเผยแพร่ทางอินเทอร์เน็ต

ในช่วงครึ่งหลังของปี 1990 ไฟล์ MP3 เริ่มแพร่กระจายบนอินเทอร์เน็ตบ่อยครั้งผ่านเครือข่ายเพลงละเมิดลิขสิทธิ์ใต้ดิน การทดลองครั้งแรกที่รู้จักในการเผยแพร่ทางอินเทอร์เน็ตจัดขึ้นในช่วงต้นทศวรรษ 1990 โดย Internet Underground Music Archive ซึ่งเป็นที่รู้จักกันดีในชื่อย่อ IUMA หลังจากการทดลอง[65]โดยใช้ไฟล์เสียงที่ไม่บีบอัด ไฟล์เก็บถาวรนี้เริ่มส่งไฟล์ MPEG Audio ที่ถูกบีบอัดบนอินเทอร์เน็ตความเร็วต่ำบางส่วนโดยใช้รูปแบบ MP2 (Layer II) และต่อมากับไฟล์ MP3 ที่ใช้เมื่อมาตรฐานเสร็จสมบูรณ์ ความนิยมของ MP3 เริ่มเพิ่มขึ้นอย่างรวดเร็วด้วยการถือกำเนิดของWinampเครื่องเล่นเสียง ของ Nullsoft ซึ่งเปิดตัวในปี 1997 ในปี 1998 เครื่องเล่น MPManเครื่องเล่นเสียงดิจิตอลโซลิดสเตตแบบพกพาเครื่องแรกซึ่งพัฒนาโดย SaeHan Information Systems ซึ่งมีสำนักงานใหญ่ในกรุงโซลประเทศเกาหลีใต้ได้รับการเผยแพร่และRio PMP300 ถูกขายหลังจากนั้นในปี 1998 แม้ว่า RIAAจะพยายามปราบปรามทางกฎหมายก็ตาม [66]

ในเดือนพฤศจิกายน 1997 เว็บไซต์mp3.comได้เสนอไฟล์ MP3 นับพันที่สร้างโดยศิลปินอิสระฟรี [66]ไฟล์ MP3 ขนาดเล็กทำให้สามารถแชร์ไฟล์เพลง จากซีดีแบบ peer -to-peer ได้ อย่างกว้างขวาง ซึ่งก่อนหน้านี้แทบจะเป็นไปไม่ได้เลย เครือข่ายการแชร์ไฟล์แบบเพียร์ทูเพียร์ขนาดใหญ่เครือข่ายแรกNapsterเปิดตัวในปี 2542 ความง่ายในการสร้างและแบ่งปันไฟล์ MP3 ส่งผลให้เกิดการละเมิดลิขสิทธิ์อย่าง กว้างขวาง บริษัทแผ่นเสียงรายใหญ่แย้งว่าการแชร์เพลงฟรีนี้ทำให้ยอดขายลดลง และเรียกมันว่า "การละเมิดลิขสิทธิ์เพลง " พวกเขาตอบโต้ด้วยการดำเนินคดีกับNapsterซึ่งปิดตัวลงและขายในภายหลัง และต่อต้านผู้ใช้แต่ละรายที่มีส่วนร่วมในการแชร์ไฟล์ [67]

การแชร์ไฟล์ MP3 โดยไม่ได้รับอนุญาตจะดำเนินต่อไปในเครือข่ายเพียร์ทูเพีย ร์ยุค ใหม่ บริการที่ได้รับอนุญาตบางอย่าง เช่นBeatport , Bleep , Juno Records , eMusic , Zune Marketplace , Walmart.com , Rhapsodyอุตสาหกรรมการบันทึกเสียงได้อนุมัติการกลับชาติมาเกิดของNapsterและAmazon.comขายเพลงไม่จำกัดในรูปแบบ MP3

การออกแบบ

โครงสร้างไฟล์

แผนผังโครงสร้างของไฟล์ MP3
ไดอะแกรมของโครงสร้างของไฟล์ MP3 (MPEG เวอร์ชัน 2.5 ไม่รองรับ ดังนั้น 12 แทนที่จะเป็น 11 บิตสำหรับ MP3 Sync Word)

ไฟล์ MP3 ประกอบด้วยเฟรม MP3 ซึ่งประกอบด้วยส่วนหัวและบล็อกข้อมูล ลำดับของเฟรมนี้เรียกว่าสตรีมเบื้องต้น เนื่องจาก "บิตอ่างเก็บน้ำ" เฟรมจึงไม่ใช่รายการอิสระและมักจะไม่สามารถแยกออกได้บนขอบเขตเฟรมโดยอำเภอใจ บล็อคข้อมูล MP3 ประกอบด้วยข้อมูลเสียง (บีบอัด) ในแง่ของความถี่และแอมพลิจูด แผนภาพแสดงให้เห็นว่าส่วนหัวของ MP3 ประกอบด้วยคำที่ซิงค์ซึ่งใช้เพื่อระบุจุดเริ่มต้นของเฟรมที่ถูกต้อง ตามด้วยบิตที่ระบุว่านี่คือ มาตรฐาน MPEGและสองบิตที่ระบุว่ามีการใช้เลเยอร์ 3 ดังนั้น MPEG-1 Audio Layer 3 หรือ MP3 หลังจากนี้ ค่าจะแตกต่างกัน ขึ้นอยู่กับไฟล์ MP3 ISO / IEC 11172-3กำหนดช่วงของค่าสำหรับแต่ละส่วนของส่วนหัวพร้อมกับข้อกำหนดของส่วนหัว ไฟล์ MP3 ส่วนใหญ่ในปัจจุบันมีข้อมูลเมตา ของ ID3 ซึ่งอยู่ข้างหน้าหรือตามหลังเฟรม MP3 ดังที่ระบุไว้ในไดอะแกรม สตรีมข้อมูลสามารถมีการตรวจสอบเพิ่มเติมได้

สเตอริโอร่วมจะทำแบบเฟรมต่อเฟรมเท่านั้น [68]

การเข้ารหัสและถอดรหัส

อัลกอริทึมการเข้ารหัส MP3 โดยทั่วไปแบ่งออกเป็นสี่ส่วน ส่วนที่ 1 แบ่งสัญญาณเสียงออกเป็นชิ้นเล็ก ๆ เรียกว่าเฟรม จากนั้นจึงใช้ตัวกรอง การแปลงโคไซน์แบบแยกส่วน (MDCT) ที่ปรับแต่งแล้วบนเอาต์พุต ส่วนที่ 2 ส่งตัวอย่างไปยังการ แปลงฟูเรียร์แบบเร็ว 1024 จุด(FFT) จากนั้นจึงนำ แบบจำลอง ทางจิตไปใช้และดำเนินการกรอง MDCT อื่นที่เอาต์พุต ส่วนที่ 3 หาปริมาณและเข้ารหัสแต่ละตัวอย่าง เรียกว่า การจัดสรรเสียงรบกวน ซึ่งปรับตัวเองเพื่อให้เป็นไปตามอัตราบิตและข้อกำหนด การ ปิดบังเสียง ส่วนที่ 4 ฟอร์แมตbitstreamเรียกว่า audio frame ซึ่งประกอบด้วย 4 ส่วนheader , error checkข้อมูลเสียงและข้อมูลเสริม [33]

มาตรฐานMPEG-1ไม่ได้ระบุข้อกำหนดที่แม่นยำสำหรับตัวเข้ารหัส MP3 แต่ให้ตัวอย่างแบบจำลองทางจิตวิทยา การวนรอบอัตรา และอื่นๆ ในทำนองเดียวกันในส่วนที่ไม่ใช่กฎเกณฑ์ของมาตรฐานดั้งเดิม [69] MPEG-2 เพิ่มจำนวนอัตราการสุ่มตัวอย่างที่รองรับเป็นสองเท่า และ MPEG-2.5 เพิ่มอีก 3 รายการ เมื่อเขียนสิ่งนี้ การใช้งานที่แนะนำนั้นค่อนข้างล้าสมัย ผู้ดำเนินการมาตรฐานควรออกแบบอัลกอริธึมของตนเองที่เหมาะสมสำหรับการลบข้อมูลบางส่วนออกจากอินพุตเสียง เป็นผลให้มีตัวเข้ารหัส MP3 ที่แตกต่างกันจำนวนมาก โดยแต่ละไฟล์จะสร้างไฟล์ที่มีคุณภาพต่างกัน การเปรียบเทียบมีให้เห็นในวงกว้าง ดังนั้นจึงเป็นเรื่องง่ายสำหรับผู้คาดหวังที่จะเป็นผู้ใช้โปรแกรมเปลี่ยนไฟล์ในการค้นหาตัวเลือกที่ดีที่สุด ตัวเข้ารหัสบางตัวที่เชี่ยวชาญในการเข้ารหัสด้วยอัตราบิตที่สูงกว่า (เช่นLAME) ไม่จำเป็นต้องดีเท่าอัตราบิตที่ต่ำกว่า เมื่อเวลาผ่านไป LAME ได้พัฒนาบนเว็บไซต์ SourceForge จนกระทั่งกลายเป็นตัวเข้ารหัส CBR MP3 โดยพฤตินัย ภายหลังมีการเพิ่มโหมด ABR งานดำเนินไปในอัตราบิตที่แปรผันจริงโดยใช้เป้าหมายคุณภาพระหว่าง 0 ถึง 10 ในที่สุดตัวเลข (เช่น -V 9.600) สามารถสร้างการเข้ารหัสเสียงที่มีอัตราบิตต่ำคุณภาพเยี่ยมได้เพียง 41 kbit/s โดยใช้ส่วนขยาย MPEG-2.5

ระหว่างการเข้ารหัส ตัวอย่างโดเมนเวลา 576 ตัวอย่างจะถูกแปลงเป็น 576 ตัวอย่างโดเมนความถี่ [ ต้องการคำชี้แจง ]หากมีช่วงเวลาชั่วคราว จะมีการ เก็บตัวอย่าง 192 ตัวอย่างแทนที่จะเป็น 576 ซึ่งทำขึ้นเพื่อจำกัดการแพร่กระจายชั่วคราวของเสียงควอนไทเซชันที่มาพร้อมกับชั่วครู่ (ดูจิตอะคูสติก ) ความละเอียดของความถี่ถูกจำกัดด้วยขนาดหน้าต่างบล็อกยาวขนาดเล็ก ซึ่งลดประสิทธิภาพในการเข้ารหัส [68]ความละเอียดของเวลาอาจต่ำเกินไปสำหรับสัญญาณชั่วคราวที่สูง และอาจทำให้เกิดเสียงกระทบกระเทือนได้ [68]

เนื่องจากโครงสร้างแบบต้นไม้ของคลังตัวกรอง ปัญหาก่อนเสียงสะท้อนจึงเลวร้ายลง เนื่องจากการตอบสนองของแรงกระตุ้นร่วมกันของช่องตัวกรองทั้งสองไม่ได้และไม่สามารถให้วิธีแก้ปัญหาที่เหมาะสมที่สุดในการแก้ปัญหาเวลา/ความถี่ได้ [68]นอกจากนี้ การรวมเอาเอาท์พุตของตัวกรองทั้งสองฝั่งจะสร้างปัญหานามแฝงที่ต้องจัดการบางส่วนโดยขั้นตอน "การชดเชยนามแฝง"; อย่างไรก็ตาม มันสร้างพลังงานส่วนเกินเพื่อเข้ารหัสในโดเมนความถี่ ซึ่งส่งผลให้ประสิทธิภาพในการเข้ารหัสลดลง [70]

ในทางกลับกัน การถอดรหัสถูกกำหนดอย่างระมัดระวังในมาตรฐาน ตัวถอดรหัสส่วนใหญ่จะ " สอดคล้องกับ บิตสตรีม " ซึ่งหมายความว่าเอาต์พุตที่คลายการบีบอัดที่สร้างจากไฟล์ MP3 ที่กำหนดจะเหมือนกันภายในระดับ ความคลาดเคลื่อนใน การปัดเศษที่ระบุ ตามผลลัพธ์ที่ระบุทางคณิตศาสตร์ในเอกสารมาตรฐานสูง ISO/IEC (ISO /IEC 11172-3). ดังนั้น การเปรียบเทียบตัวถอดรหัสจึงมักจะขึ้นอยู่กับประสิทธิภาพของการคำนวณ (เช่นหน่วยความจำหรือ เวลา ของ CPUที่ใช้ในกระบวนการถอดรหัส) เมื่อเวลาผ่านไป ความกังวลนี้ได้กลายเป็นปัญหาน้อยลงเมื่อความเร็วของ CPU เปลี่ยนจาก MHz เป็น GHz ไม่ได้กำหนดความล่าช้าโดยรวมของตัวเข้ารหัส/ตัวถอดรหัส ซึ่งหมายความว่าไม่มีข้อกำหนดอย่างเป็นทางการสำหรับการเล่นแบบไม่มีช่องว่าง อย่างไรก็ตาม โปรแกรมเปลี่ยนไฟล์บางตัว เช่น LAME สามารถแนบเมตาดาต้าเพิ่มเติม ซึ่งจะช่วยให้ผู้เล่นสามารถจัดการกับมันได้เพื่อให้เล่นได้อย่างราบรื่น

คุณภาพ

เมื่อทำการเข้ารหัสเสียงที่สูญเสียไป เช่น การสร้างสตรีมข้อมูล MP3 จะมีการแลกเปลี่ยนระหว่างปริมาณข้อมูลที่สร้างขึ้นและคุณภาพเสียงของผลลัพธ์ ผู้สร้าง MP3 จะเลือกอัตราบิตซึ่งระบุจำนวนกิโลบิตต่อวินาทีของเสียงที่ต้องการ ยิ่งอัตราบิตสูงเท่าใด สตรีมข้อมูล MP3 ก็จะยิ่งมากขึ้นเท่านั้น และโดยทั่วไป เสียงจะยิ่งใกล้เคียงกับการบันทึกต้นฉบับมากขึ้นเท่านั้น ด้วยอัตราบิตที่ต่ำเกินไปสิ่งประดิษฐ์ในการบีบอัด (เช่น เสียงที่ไม่มีอยู่ในการบันทึกต้นฉบับ) อาจได้ยินในการทำซ้ำ เสียงบางอย่างบีบอัดได้ยากเนื่องจากการสุ่มและการโจมตีที่เฉียบคม เมื่อเสียงประเภทนี้ถูกบีบอัด สิ่งแปลกปลอม เช่น เสียงกริ่งหรือเสียงสะท้อนล่วงหน้ามักจะได้ยิน ตัวอย่างเสียงปรบมือหรือเครื่องมือสามเหลี่ยมที่มีอัตราบิตค่อนข้างต่ำเป็นตัวอย่างที่ดีของสิ่งประดิษฐ์ในการบีบอัด การทดสอบเชิงอัตวิสัยของตัวแปลงสัญญาณการรับรู้มักจะหลีกเลี่ยงการใช้วัสดุเสียงประเภทนี้ อย่างไรก็ตาม สิ่งประดิษฐ์ที่เกิดจากเสียงกระทบนั้นแทบจะมองไม่เห็นเนื่องจากคุณสมบัติการกำบังชั่วคราวเฉพาะของ 32 แถบความถี่ย่อยของเลเยอร์ II ซึ่งใช้รูปแบบ .

นอกจากอัตราบิตของเสียงที่เข้ารหัสแล้ว คุณภาพของเสียงที่เข้ารหัส MP3 ยังขึ้นอยู่กับคุณภาพของอัลกอริธึมตัวเข้ารหัสและความซับซ้อนของสัญญาณที่กำลังเข้ารหัสด้วย เนื่องจากมาตรฐาน MP3 อนุญาตให้ใช้อัลกอริธึมการเข้ารหัสได้ค่อนข้างอิสระ ตัวเข้ารหัสที่แตกต่างกันจึงมีคุณภาพที่แตกต่างกันค่อนข้างมาก แม้ว่าจะมีอัตราบิตเหมือนกัน ตัวอย่างเช่น ในการทดสอบการฟังสาธารณะที่มีตัวเข้ารหัส MP3 รุ่นแรกสองตัวที่ตั้งค่าไว้ที่ 128 kbit/s [71]ตัวหนึ่งได้คะแนน 3.66 ในระดับ 1-5 ในขณะที่อีกตัวทำคะแนนเพียง 2.22 คุณภาพขึ้นอยู่กับตัวเลือกของตัวเข้ารหัสและพารามิเตอร์การเข้ารหัส [72]

การสังเกตนี้ทำให้เกิดการปฏิวัติในการเข้ารหัสเสียง ในช่วงต้นของบิตเรตเป็นปัจจัยสำคัญและการพิจารณาเพียงอย่างเดียว ในขณะที่ไฟล์ MP3 เป็นประเภทที่ง่ายที่สุด: ใช้อัตราบิตเดียวกันสำหรับไฟล์ทั้งหมด: กระบวนการนี้เรียกว่า การเข้ารหัส อัตราบิตคง ที่ (CBR) การใช้อัตราบิตคงที่ทำให้การเข้ารหัสง่ายขึ้นและใช้ CPU น้อยลง อย่างไรก็ตาม ยังสามารถสร้างไฟล์ที่อัตราบิตเปลี่ยนแปลงตลอดทั้งไฟล์ได้ สิ่งเหล่านี้เรียกว่าVariable Bit Rate. อ่างเก็บน้ำบิตและการเข้ารหัส VBR เป็นส่วนหนึ่งของมาตรฐาน MPEG-1 ดั้งเดิม แนวคิดเบื้องหลังคือ ในชิ้นส่วนของเสียง บางส่วนจะบีบอัดได้ง่ายกว่า เช่น ความเงียบหรือเพลงที่มีโทนเสียงเพียงไม่กี่โทน ในขณะที่ส่วนอื่นๆ จะบีบอัดได้ยากกว่า ดังนั้นคุณภาพโดยรวมของไฟล์อาจเพิ่มขึ้นโดยใช้อัตราบิตที่ต่ำกว่าสำหรับข้อความที่ซับซ้อนน้อยกว่าและสูงกว่าสำหรับส่วนที่ซับซ้อนกว่า ด้วยตัวเข้ารหัส MP3 ขั้นสูงบางตัว คุณสามารถระบุคุณภาพที่กำหนด และตัวเข้ารหัสจะปรับอัตราบิตตามนั้น ผู้ใช้ที่ต้องการ "การตั้งค่าคุณภาพ" โดยเฉพาะที่โปร่งใสกับหูของพวกเขาสามารถใช้ค่านี้ในการเข้ารหัสเพลงทั้งหมดของพวกเขา และโดยทั่วไปแล้ว ไม่จำเป็นต้องกังวลเกี่ยวกับการทดสอบการฟังส่วนบุคคลในเพลงแต่ละชิ้นเพื่อกำหนดอัตราบิตที่ถูกต้อง

คุณภาพที่รับรู้สามารถได้รับอิทธิพลจากสภาพแวดล้อมในการฟัง (เสียงรอบข้าง) ความสนใจของผู้ฟัง และการฝึกอบรมผู้ฟัง และในกรณีส่วนใหญ่โดยอุปกรณ์เสียงของผู้ฟัง (เช่น การ์ดเสียง ลำโพง และหูฟัง) นอกจากนี้ คุณภาพที่เพียงพออาจทำได้โดยการตั้งค่าคุณภาพที่น้อยกว่าสำหรับการบรรยายและการใช้งานคำพูดของมนุษย์ และลดเวลาในการเข้ารหัสและความซับซ้อน การทดสอบสำหรับนักศึกษาใหม่โดย Jonathan Berger ศาสตราจารย์ด้านดนตรีจาก มหาวิทยาลัยสแตนฟอร์ดแสดงให้เห็นว่านักเรียนชื่นชอบดนตรีคุณภาพ MP3 เพิ่มขึ้นทุกปี เบอร์เกอร์กล่าวว่านักเรียนดูเหมือนจะชอบเสียงที่ 'เสียงดังฉ่า' ที่ MP3 นำมาประกอบเป็นเพลง [73]

การศึกษาเชิงลึกเกี่ยวกับคุณภาพเสียง MP3 ศิลปินเสียงและนักประพันธ์เพลง"The Ghost in the MP3" ของRyan Maguire ได้แยกเสียงที่หายไประหว่างการบีบอัด MP3 ในปี 2558 เขาออกเพลง "moDernisT" (แอนนาแกรมของ "Tom's Diner") ซึ่งแต่งขึ้นจากเสียงที่ถูกลบระหว่างการบีบอัด MP3 ของเพลง "Tom's Diner", [74] [75] [76]แทร็กที่ใช้เดิม ในการกำหนดมาตรฐาน MP3 รายละเอียดเกี่ยวกับเทคนิคที่ใช้ในการแยกเสียงที่ถูกลบระหว่างการบีบอัด MP3 พร้อมด้วยแรงจูงใจด้านแนวคิดสำหรับโครงการ ได้รับการตีพิมพ์ในการประชุมประจำปี 2014 ของการประชุม International Computer Music Conference [77]

อัตราบิต

อัตราบิตที่ใช้ได้ MPEG Audio Layer III
(kbit/s) [14] [51] [52] [53] [78]
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
เลเยอร์เสียง MPEG-2.5
III
8 8
16 16
24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80
96 96
112 112
128 128
n/a 144
160 160
192
224
256
320
รองรับอัตราการสุ่มตัวอย่าง
ตามรูปแบบเสียง MPEG [14] [51] [52] [53]
MPEG-1
Audio Layer III
MPEG-2
Audio Layer III
เลเยอร์เสียง MPEG-2.5
III
8000 เฮิรตซ์
11025 เฮิรตซ์
12000 เฮิรตซ์
16000 Hz
22050 Hz
24000 Hz
32000 เฮิรตซ์
44100 เฮิรตซ์
48000 เฮิรตซ์

บิตเรตเป็นผลคูณของอัตราสุ่มตัวอย่างและจำนวนบิตต่อตัวอย่างที่ใช้ในการเข้ารหัสเพลง ซีดีเสียงคือ 44100 ตัวอย่างต่อวินาที จำนวนบิตต่อตัวอย่างขึ้นอยู่กับจำนวนช่องสัญญาณเสียงด้วย ซีดีเป็นสเตอริโอและ 16 บิตต่อช่อง ดังนั้น การคูณ 44100 ด้วย 32 จะได้ 1411200 ซึ่งเป็นบิตเรตของเสียงดิจิทัลซีดีที่ไม่บีบอัด MP3 ออกแบบมาเพื่อเข้ารหัสข้อมูล 1411 kbit/s ที่ 320 kbit/s หรือน้อยกว่า เนื่องจากอัลกอริธึม MP3 ตรวจพบข้อความที่ซับซ้อนน้อยกว่า จึงอาจใช้บิตเรตที่ต่ำกว่า เมื่อใช้ MPEG-2 แทน MPEG-1 MP3 รองรับเฉพาะอัตราการสุ่มตัวอย่างที่ต่ำกว่า (16000, 22050 หรือ 24000 ตัวอย่างต่อวินาที) และเสนอตัวเลือกบิตเรตที่ต่ำถึง 8 kbit/s แต่ไม่เกิน 160 kbit/s ด้วยการลดอัตราการสุ่มตัวอย่าง MPEG-2 layer III จะลบความถี่ทั้งหมดที่อยู่เหนือครึ่งหนึ่งของอัตราการสุ่มตัวอย่างใหม่ที่อาจมีอยู่ในเสียงต้นทาง

ตามที่แสดงในตารางทั้งสองนี้อัตราบิต ที่เลือกได้ 14 รายการ จะได้รับอนุญาตในมาตรฐาน MPEG-1 Audio Layer III: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 และ 320 kbit /s พร้อมกับความถี่สุ่มตัวอย่างสูงสุด 3 ความถี่ที่32, 44.1 และ 48  kHz [52] MPEG-2 Audio Layer III ยังอนุญาตให้มี อัตราบิตที่แตกต่างกัน 14 (และส่วนใหญ่ต่ำกว่า) ที่ 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit /s ด้วยความถี่การสุ่มตัวอย่าง 16, 22.05 และ 24  kHzซึ่งเท่ากับครึ่งหนึ่งของเฟรม MPEG-1 [52] MPEG-2.5 Audio Layer III ถูกจำกัดที่อัตรา 8 บิต เท่านั้น8, 16, 24, 32, 40, 48, 56 และ 64 kbit/s ด้วยความถี่สุ่มตัวอย่าง ที่ต่ำกว่า 3 ตัว ที่ 8, 11.025 และ 12 kHz [ ต้องการการอ้างอิง ]ในระบบก่อนหน้านี้ที่รองรับเฉพาะมาตรฐาน MPEG-1 Audio Layer III ไฟล์ MP3 ที่มีอัตราบิตต่ำกว่า 32 kbit/s อาจถูกเล่นแบบเร่งความเร็วและระดับเสียงสูง

ระบบก่อนหน้านี้ยังขาดการควบคุมการเล่นไฟล์ MP3 ในการกรอไปข้างหน้าและย้อนกลับอย่างรวดเร็ว [79] [80]

เฟรม MPEG-1 มีรายละเอียดมากที่สุดในโหมด 320 kbit/s ซึ่งเป็นการตั้งค่าอัตราบิตสูงสุดที่อนุญาต[81]พร้อมความเงียบและโทนสีเรียบง่ายยังคงต้องการ 32 kbit/s เฟรม MPEG-2 สามารถบันทึกการสร้างเสียงสูงสุด 12 kHz ที่ต้องการสูงสุด 160 kbit/s ไฟล์ MP3 ที่สร้างด้วย MPEG-2 ไม่มีแบนด์วิดท์ 20 kHz เนื่องจากNyquist –Shannon Sampling Theorem การทำสำเนาความถี่มักจะน้อยกว่าครึ่งหนึ่งของความถี่สุ่มตัวอย่างเสมอ และตัวกรองที่ไม่สมบูรณ์ต้องการระยะขอบที่ใหญ่กว่าสำหรับข้อผิดพลาด (ระดับเสียงรบกวนเทียบกับความคมชัดของตัวกรอง) ดังนั้นอัตราการสุ่มตัวอย่าง 8 kHz จะจำกัดความถี่สูงสุดไว้ที่ 4 kHz ในขณะที่สุ่มตัวอย่าง 48 kHz อัตราจำกัดการสร้างเสียง MP3 สูงสุด 24 kHz MPEG-2 ใช้เพียงครึ่งเดียวและ MPEG-2.5 เพียงหนึ่งในสี่ของอัตราการสุ่มตัวอย่าง MPEG-1

สำหรับขอบเขตทั่วไปของการสร้างเสียงพูดของมนุษย์ แบนด์วิดท์ 5512 Hz ก็เพียงพอที่จะให้ผลลัพธ์ที่ยอดเยี่ยม (สำหรับเสียง) โดยใช้อัตราการสุ่มตัวอย่างที่ 11025 และการเข้ารหัส VBR จากไฟล์ WAV 44100 (มาตรฐาน) ผู้พูดภาษาอังกฤษโดยเฉลี่ย 41–42 kbit/s ด้วยการตั้งค่า -V 9.6 แต่อาจแตกต่างกันไปตามปริมาณความเงียบที่บันทึกไว้หรืออัตราการส่ง (wpm) การสุ่มตัวอย่างใหม่เป็น 12000 (แบนด์วิดท์ 6K) ถูกเลือกโดยพารามิเตอร์ LAME -V 9.4 ในทำนองเดียวกัน -V 9.2 เลือกอัตราการสุ่มตัวอย่าง 16000 และการกรองความถี่ต่ำ 8K ที่เป็นผลลัพธ์ สำหรับข้อมูลเพิ่มเติม โปรดดู Nyquist – Shannon LAME และ FFmpeg เวอร์ชันเก่ารองรับเฉพาะอาร์กิวเมนต์จำนวนเต็มสำหรับพารามิเตอร์การเลือกคุณภาพอัตราบิตแบบแปรผันเท่านั้น พารามิเตอร์คุณภาพ n.nnn (-V) มีการบันทึกไว้ที่ lame.sourceforge.net แต่รองรับเฉพาะใน LAME ด้วยตัวเลือกคุณภาพอัตราบิตตัวแปร VBR รูปแบบใหม่ ไม่ใช่อัตราบิตเฉลี่ย (ABR)

อัตราการสุ่มตัวอย่าง 44.1 kHz มักใช้สำหรับการสร้างเพลง เนื่องจากยังใช้สำหรับเสียงซีดีซึ่งเป็นแหล่งหลักที่ใช้สำหรับสร้างไฟล์ MP3 อัตราบิตที่หลากหลายถูกใช้บนอินเทอร์เน็ต โดยทั่วไปจะใช้อัตราบิตที่ 128 kbit/s [82]ที่อัตราการบีบอัดที่ 11:1 ซึ่งให้คุณภาพเสียงที่เพียงพอในพื้นที่ที่ค่อนข้างเล็ก เนื่องจาก ความพร้อมใช้งานของ แบนด์วิดท์ อินเทอร์เน็ต และขนาดฮาร์ดไดรฟ์เพิ่มขึ้น อัตราบิตที่สูงขึ้นถึง 320 kbit/s จึงแพร่หลาย เสียงที่ไม่บีบอัดที่จัดเก็บไว้ในซีดีเพลงมีอัตราบิต 1,411.2 kbit/s (16 บิต/ตัวอย่าง × 44100 ตัวอย่าง/วินาที × 2 ช่อง / 1000 บิต/กิโลบิต) ดังนั้นอัตราบิตจึงอยู่ที่ 128, 160 และ 192 kbit/s แสดงถึงอัตราส่วนกำลังอัดประมาณ 11:1, 9:1 และ 7:1 ตามลำดับ

อัตราบิตที่ไม่ได้มาตรฐานสูงถึง 640 kbit/s สามารถทำได้ด้วย ตัวเข้ารหัส LAMEและตัวเลือกรูปแบบอิสระ แม้ว่าจะมีเครื่องเล่น MP3 บางตัวที่สามารถเล่นไฟล์เหล่านั้นได้ ตามมาตรฐาน ISO ต้องใช้ตัวถอดรหัสเพื่อให้สามารถถอดรหัสสตรีมได้สูงถึง 320 kbit/s เท่านั้น [83] [84] [85]ตัวเข้ารหัส MPEG Layer III ยุคแรกใช้สิ่งที่เรียกว่าอัตราบิตคง ที่ (CBR) ซอฟต์แวร์นี้สามารถใช้บิตเรตที่เหมือนกันกับทุกเฟรมในไฟล์ MP3 เท่านั้น ต่อมา ตัวเข้ารหัส MP3 ที่มีความซับซ้อนมากขึ้นก็สามารถใช้บิตอ่างเก็บน้ำเพื่อกำหนดเป้าหมายอัตราบิตเฉลี่ยโดยเลือกอัตราการเข้ารหัสสำหรับแต่ละเฟรมตามความซับซ้อนของเสียงในส่วนที่บันทึก

ตัวเข้ารหัส MP3 ที่ซับซ้อนยิ่งขึ้นสามารถสร้างเสียงบิตเรตแบบแปรผัน ได้ เสียง MPEG อาจใช้การสลับบิตเรตแบบต่อเฟรม แต่ต้องรองรับตัวถอดรหัสเลเยอร์ III เท่านั้น [52] [86] [87] [88] VBR ใช้เมื่อเป้าหมายคือการบรรลุระดับคุณภาพคงที่ ขนาดไฟล์สุดท้ายของการเข้ารหัส VBR คาดเดาได้น้อยกว่าอัตราบิตคงที่ อัตราบิตเฉลี่ยเป็นประเภทของ VBR ที่นำมาใช้เป็นการประนีประนอมระหว่างสอง: บิตเรตสามารถเปลี่ยนแปลงได้เพื่อคุณภาพที่สม่ำเสมอมากขึ้น แต่ถูกควบคุมให้ใกล้เคียงกับค่าเฉลี่ยที่ผู้ใช้เลือกสำหรับขนาดไฟล์ที่คาดการณ์ได้ แม้ว่าตัวถอดรหัส MP3 ต้องสนับสนุน VBR เพื่อให้เป็นไปตามมาตรฐาน แต่ในอดีตตัวถอดรหัสบางตัวมีจุดบกพร่องในการถอดรหัส VBR โดยเฉพาะอย่างยิ่งก่อนที่ตัวเข้ารหัส VBR จะแพร่หลาย ตัวเข้ารหัส LAME MP3 ที่พัฒนามากที่สุดรองรับการสร้าง VBR, ABR และแม้แต่รูปแบบ CBR MP3 ที่เก่ากว่า

เสียงเลเยอร์ III ยังสามารถใช้ "บิตอ่างเก็บน้ำ" ซึ่งเป็นความสามารถของฟูลเฟรมบางส่วนในการเก็บข้อมูลเสียงของเฟรมถัดไป ทำให้เปลี่ยนแปลงชั่วคราวในบิตเรตที่มีประสิทธิภาพ แม้ในสตรีมบิตเรตคงที่ [52] [86]การจัดการภายในของบิตอ่างเก็บน้ำเพิ่มความล่าช้าในการเข้ารหัส [ ต้องการการอ้างอิง ]ไม่มีสเกลแฟกเตอร์แบนด์ 21 (sfb21) สำหรับความถี่ที่สูงกว่าประมาณ 16  kHzบังคับให้ตัวเข้ารหัสต้องเลือกระหว่างการแสดงข้อมูลที่แม่นยำน้อยกว่าในแบนด์ 21 หรือการจัดเก็บที่มีประสิทธิภาพน้อยกว่าในทุกแบนด์ที่ต่ำกว่าแบนด์ 21 ซึ่งส่งผลให้บิตเรตสูญเปล่า ในการเข้ารหัส VBR [89]

ข้อมูลเสริม

ฟิลด์ข้อมูลเสริมสามารถใช้เพื่อเก็บข้อมูลที่กำหนดโดยผู้ใช้ ข้อมูลเสริมเป็นทางเลือกและจำนวนบิตที่มีอยู่ไม่ได้กำหนดไว้อย่างชัดเจน ข้อมูลเสริมตั้งอยู่หลังบิตโค้ดของ Huffman และช่วงที่ main_data_begin ของเฟรมถัดไปชี้ไป Encoder mp3PROใช้ข้อมูลเสริมเพื่อเข้ารหัสข้อมูลเพิ่มเติม ซึ่งสามารถปรับปรุงคุณภาพเสียงได้เมื่อถอดรหัสด้วยอัลกอริธึมของตัวเอง

ข้อมูลเมตา

"แท็ก" ในไฟล์เสียงเป็นส่วนหนึ่งของไฟล์ที่มีข้อมูลเมตาเช่น ชื่อ ศิลปิน อัลบั้ม หมายเลขแทร็ก หรือข้อมูลอื่นๆ เกี่ยวกับเนื้อหาของไฟล์ มาตรฐาน MP3 ไม่ได้กำหนดรูปแบบแท็กสำหรับไฟล์ MP3 และไม่มีรูปแบบคอนเทนเนอร์ มาตรฐาน ที่จะสนับสนุนข้อมูลเมตาและขจัดความจำเป็นในการแท็ก อย่างไรก็ตาม มี มาตรฐาน โดยพฤตินัย หลายประการ สำหรับรูปแบบแท็ก ในปี 2010 ID3v1 และ ID3v2ที่แพร่หลายที่สุด และ APEv2ที่เพิ่งเปิดตัวล่าสุด แท็กเหล่านี้มักจะฝังอยู่ที่จุดเริ่มต้นหรือจุดสิ้นสุดของไฟล์ MP3 ซึ่งแยกจากข้อมูลเฟรม MP3 จริง ตัวถอดรหัส MP3 จะดึงข้อมูลจากแท็กหรือเพียงแค่ถือว่าเป็นข้อมูลขยะที่ไม่ใช่ MP3 ที่เพิกเฉย

ซอฟต์แวร์เล่นและแก้ไขมักจะมีฟังก์ชันแก้ไขแท็ก แต่ก็มี แอปพลิเคชัน แก้ไขแท็กสำหรับวัตถุประสงค์โดยเฉพาะ นอกจากข้อมูลเมตาที่เกี่ยวข้องกับเนื้อหาเสียงแล้ว แท็ กยังสามารถใช้สำหรับDRM [90] ReplayGainเป็นมาตรฐานสำหรับการวัดและจัดเก็บความดังของไฟล์ MP3 ( การทำให้เป็นมาตรฐานของเสียง ) ในแท็กข้อมูลเมตา ทำให้โปรแกรมเล่นที่เข้ากันได้กับ ReplayGain สามารถปรับระดับเสียงการเล่นโดยรวมสำหรับแต่ละไฟล์ได้โดยอัตโนมัติ อาจใช้ MP3Gain เพื่อแก้ไขไฟล์แบบย้อนกลับตามการวัด ReplayGain เพื่อให้การเล่นที่ปรับแล้วสามารถทำได้บนเครื่องเล่นที่ไม่มีความสามารถของ ReplayGain

ใบอนุญาต ความเป็นเจ้าของ และการออกกฎหมาย

เทคโนโลยีการถอดรหัสและการเข้ารหัส MP3 พื้นฐานนั้นปลอดสิทธิบัตรในสหภาพยุโรป สิทธิบัตรทั้งหมดจะหมดอายุที่นั่นภายในปี 2555 เป็นอย่างช้าที่สุด ในสหรัฐอเมริกา เทคโนโลยีได้รับการจดสิทธิบัตรอย่างมากในวันที่ 16 เมษายน 2017 (ดูด้านล่าง) สิทธิบัตร MP3 หมดอายุในสหรัฐอเมริการะหว่างปี 2550 ถึง 2560 ในอดีต หลายองค์กรได้อ้างสิทธิ์ความเป็นเจ้าของสิทธิบัตรที่เกี่ยวข้องกับการถอดรหัสหรือการเข้ารหัส MP3 การอ้างสิทธิ์เหล่านี้นำไปสู่การคุกคามและการดำเนินการทางกฎหมายหลายประการจากแหล่งต่างๆ ด้วยเหตุนี้ ความไม่แน่นอนเกี่ยวกับสิทธิบัตรที่ต้องได้รับใบอนุญาตจึงจะสามารถสร้างผลิตภัณฑ์ MP3 ได้โดยไม่ละเมิดสิทธิบัตรในประเทศที่อนุญาตให้ใช้สิทธิบัตรซอฟต์แวร์เป็นคุณลักษณะทั่วไปของการนำเทคโนโลยีนี้ไปใช้ในช่วงแรกๆ

มาตรฐาน MPEG-1 ที่ใกล้จะสมบูรณ์ในเบื้องต้น (ตอนที่ 1, 2 และ 3) ได้เผยแพร่ต่อสาธารณชนเมื่อวันที่ 6 ธันวาคม พ.ศ. 2534 ในชื่อ ISO CD 11172 [91] [92]ในประเทศส่วนใหญ่ ไม่สามารถยื่นจดสิทธิบัตรได้หลังจากที่งานศิลปะก่อนหน้านี้ได้รับการเผยแพร่สู่สาธารณะ และสิทธิบัตรจะหมดอายุ 20 ปีหลังจากวันที่ยื่นครั้งแรก ซึ่งอาจนานถึง 12 เดือนต่อมาสำหรับการยื่นในประเทศอื่นๆ ด้วยเหตุนี้ สิทธิบัตรที่จำเป็นสำหรับการติดตั้ง MP3 จึงหมดอายุในประเทศส่วนใหญ่ภายในเดือนธันวาคม 2555 ซึ่งเป็นเวลา 21 ปีหลังจากการตีพิมพ์ ISO CD 11172

ข้อยกเว้นคือสหรัฐอเมริกา ซึ่งสิทธิบัตรที่มีผลใช้บังคับแต่ยื่นก่อนวันที่ 8 มิถุนายน 2538 จะหมดอายุหลังจากผ่านไป 17 ปีนับจากวันที่ออกหรือ 20 ปีนับจากวันที่มีความสำคัญ กระบวนการฟ้องคดีสิทธิบัตรที่ยืดเยื้ออาจส่งผลให้การออกสิทธิบัตรช้ากว่าที่คาดไว้มาก (ดูสิทธิบัตรเรือดำน้ำ ) สิทธิบัตรที่เกี่ยวข้องกับ MP3 ต่างๆ จะหมดอายุในวันที่ตั้งแต่ปี 2550 ถึง พ.ศ. 2560 ในสหรัฐอเมริกา [93]สิทธิบัตรสำหรับสิ่งใด ๆ ที่เปิดเผยใน ISO CD 11172 ที่ยื่นหนึ่งปีหรือนานกว่านั้นหลังจากการตีพิมพ์เป็นที่น่าสงสัย หากพิจารณาเฉพาะสิทธิบัตร MP3 ที่ทราบซึ่งยื่นภายในเดือนธันวาคม 2535 การถอดรหัส MP3 นั้นไม่มีสิทธิบัตรในสหรัฐอเมริกาตั้งแต่วันที่ 22 กันยายน 2558 เมื่อสิทธิบัตรสหรัฐอเมริกา 5,812,672ซึ่งได้รับการยื่นต่อ PCT ในเดือนตุลาคม 2535 หมดอายุ [94] [95][96]หากใช้สิทธิบัตรที่ดำเนินการยาวนานที่สุดที่กล่าวถึงในการอ้างอิงดังกล่าวเป็นมาตรการ เทคโนโลยี MP3 ก็กลายเป็นปลอดสิทธิบัตรในสหรัฐอเมริกาเมื่อวันที่ 16 เมษายน 2017 เมื่อสิทธิบัตรสหรัฐอเมริกา 6,009,399ถือ [97]และบริหารงานโดย Technicolor , [98]หมดอายุ ด้วยเหตุนี้ โครงการ ซอฟต์แวร์โอเพ่นซอร์สและฟรี จำนวนมาก เช่นระบบปฏิบัติการ Fedoraได้ตัดสินใจที่จะเริ่มจัดส่งการสนับสนุน MP3 ตามค่าเริ่มต้น และผู้ใช้จะไม่ต้องหันไปติดตั้งแพ็คเกจที่ไม่เป็นทางการซึ่งดูแลโดยที่เก็บซอฟต์แวร์ของบุคคลที่สามสำหรับ MP3 การเล่นหรือการเข้ารหัส [99]

Technicolor (เดิมเรียกว่า Thomson Consumer Electronics) อ้างว่าควบคุมลิขสิทธิ์ MP3 ของสิทธิบัตร Layer 3 ในหลายประเทศ รวมถึงประเทศสหรัฐอเมริกา ญี่ปุ่น แคนาดา และสหภาพยุโรป [100] Technicolor บังคับใช้สิทธิบัตรเหล่านี้อย่างแข็งขัน [101]รายได้จากลิขสิทธิ์ MP3 จากฝ่ายบริหารของ Technicolor สร้างรายได้ประมาณ 100 ล้านยูโรสำหรับ Fraunhofer Society ในปี 2548 [102]ในเดือนกันยายน พ.ศ. 2541 สถาบัน Fraunhofer ได้ส่งจดหมายถึงนักพัฒนาซอฟต์แวร์ MP3 หลายคนโดยระบุว่าต้องมีใบอนุญาตเพื่อ "จำหน่ายและ/หรือขายตัวถอดรหัสและ/หรือตัวเข้ารหัส" จดหมายอ้างว่าผลิตภัณฑ์ที่ไม่มีใบอนุญาต "ละเมิดสิทธิ์ในสิทธิบัตรของ Fraunhofer และ Thomson ในการทำ ขาย หรือแจกจ่ายผลิตภัณฑ์โดยใช้มาตรฐาน [MPEG Layer-3] และด้วยเหตุนี้สิทธิบัตรของเรา คุณต้องได้รับใบอนุญาตภายใต้สิทธิบัตรเหล่านี้จากเรา" [103]สิ่งนี้นำไปสู่สถานการณ์ที่ โครงการเข้ารหัส LAME MP3 ไม่สามารถเสนอไบนารีอย่างเป็นทางการแก่ผู้ใช้ที่สามารถทำงานบนคอมพิวเตอร์ของพวกเขาได้ ตำแหน่งของโครงการคือ LAME เป็นซอร์สโค้ดเป็นเพียงคำอธิบายว่าเครื่องเข้ารหัส MP3 สามารถทำได้ อย่างไรนำไปปฏิบัติ ไบนารีที่คอมไพล์แล้วมีให้จากแหล่งอื่นอย่างไม่เป็นทางการ

Sisvel SpA ซึ่งเป็นบริษัทในลักเซมเบิร์ก ดูแลใบอนุญาตสำหรับสิทธิบัตรที่ใช้กับ MPEG Audio [104]พวกเขา พร้อมด้วยบริษัทในเครือ Audio MPEG, Inc. ในประเทศสหรัฐอเมริกา เคยฟ้องทอมสันเรื่องการละเมิดสิทธิบัตรเกี่ยวกับเทคโนโลยี MP3 [105]แต่ข้อพิพาทเหล่านั้นได้รับการแก้ไขในเดือนพฤศจิกายน พ.ศ. 2548 โดย Sisvel อนุญาตให้ทอมสันได้รับใบอนุญาตให้ใช้สิทธิบัตรของตน Motorola ได้ปฏิบัติตามหลังจากนั้นไม่นาน และลงนามกับ Sisvel เพื่ออนุญาตสิทธิบัตรที่เกี่ยวข้องกับ MP3 ในเดือนธันวาคม 2548 [16]ยกเว้นสิทธิบัตรสามฉบับ สิทธิบัตรของสหรัฐอเมริกาที่บริหารโดย Sisvel [107]ได้หมดอายุทั้งหมดในปี 2558 ข้อยกเว้นสามประการคือ: สิทธิบัตรสหรัฐอเมริกา 5,878,080 , หมดอายุ กุมภาพันธ์ 2017; สิทธิบัตรสหรัฐอเมริกา 5,850,456หมดอายุในเดือนกุมภาพันธ์ 2560 และสิทธิบัตรสหรัฐอเมริกา 5,960,037หมดอายุ 9 เมษายน 2560

ในเดือนกันยายน พ.ศ. 2549 เจ้าหน้าที่เยอรมันยึดเครื่องเล่น MP3 จากบูธของSanDisk ที่งาน IFAในกรุงเบอร์ลิน หลังจากที่บริษัทสิทธิบัตรของอิตาลีชนะคำสั่งห้ามในนามของ Sisvel ต่อ SanDisk ในข้อพิพาทเรื่องสิทธิ์การใช้งาน คำสั่งห้ามภายหลังถูกกลับรายการโดยผู้พิพากษาในเบอร์ลิน[108]แต่การกลับรายการนั้นถูกขัดขวางในวันเดียวกันโดยผู้พิพากษาอีกคนจากศาลเดียวกัน "การนำสิทธิบัตร Wild West มาสู่เยอรมนี" ในคำพูดของผู้วิจารณ์คนหนึ่ง [109]ในเดือนกุมภาพันธ์ 2550 Texas MP3 Technologies ฟ้อง Apple, Samsung Electronics และ Sandisk ในศาลรัฐบาลกลางของรัฐเท็กซัสตะวันออกโดยอ้างว่าละเมิดสิทธิบัตรเครื่องเล่น MP3 แบบพกพาที่ Texas MP3 กล่าวว่าได้รับมอบหมายแล้ว Apple, Samsung และ Sandisk ต่างยุติข้อเรียกร้องดังกล่าวในเดือนมกราคม 2552 [110] [111]

Alcatel-Lucentได้ยืนยันสิทธิบัตรการเข้ารหัสและการบีบอัด MP3 หลายฉบับ ซึ่งอ้างว่าได้รับมรดกมาจาก AT&T-Bell Labs ในการดำเนินคดีของตนเอง ในเดือนพฤศจิกายน พ.ศ. 2549 ก่อนการควบรวมกิจการ บริษัท Alcatel ฟ้อง Microsoftเนื่องจากถูกกล่าวหาว่าละเมิดสิทธิบัตรเจ็ดฉบับ เมื่อวันที่ 23 กุมภาพันธ์ พ.ศ. 2550 คณะลูกขุนของซานดิเอโกได้ตัดสินให้ Alcatel-Lucentเสียหาย 1.52 พันล้านดอลลาร์สหรัฐสำหรับการละเมิดข้อตกลงดังกล่าว [112]ศาลเพิกถอนรางวัลในเวลาต่อมา อย่างไรก็ตาม พบว่าสิทธิบัตรหนึ่งไม่ได้ถูกละเมิดและอีกสิทธิบัตรหนึ่งไม่ได้เป็นเจ้าของโดยAlcatel-Lucent ; AT&Tและ Fraunhofer เป็นเจ้าของร่วม ซึ่งให้สิทธิ์ใช้งานกับ Microsoftผู้พิพากษาตัดสิน [113]คำพิพากษาจำเลยนั้นได้รับการอุทธรณ์ในปี 2008 [114]ดูAlcatel-Lucent v. Microsoftสำหรับข้อมูลเพิ่มเติม

เทคโนโลยีทางเลือก

มีรูปแบบการสูญเสียอื่น ๆ ในจำนวนนี้Advanced Audio Coding (AAC) เป็นโปรแกรมที่ใช้กันอย่างแพร่หลายมากที่สุด และได้รับการออกแบบมาให้เป็นตัวต่อจาก MP3 นอกจากนี้ยังมีรูปแบบการสูญเสียอื่น ๆเช่นmp3PROและMP2 พวกเขาเป็นสมาชิกของตระกูลเทคโนโลยีเดียวกันกับ MP3 และขึ้นอยู่กับแบบจำลองทางจิตและอัลกอริธึมMDCT ที่คล้ายคลึงกัน ในขณะที่ MP3 ใช้วิธีการเข้ารหัสแบบไฮบริดที่เป็นส่วนหนึ่งของ MDCT และFFT ส่วนหนึ่ง AAC นั้นเป็น MDCT ล้วนๆ ซึ่งช่วยปรับปรุงประสิทธิภาพการบีบอัดได้อย่างมาก [115]สิทธิบัตรพื้นฐานจำนวนมากที่เป็นต้นแบบของรูปแบบเหล่านี้ถือครองโดยFraunhofer Society , Alcatel-Lucent,Thomson Consumer Electronics , [115] Bell , Dolby , LG Electronics , NEC , NTT Docomo , Panasonic , Sony Corporation , [116] ETRI , JVC Kenwood , Philips , MicrosoftและNTT [117]

เมื่อตลาดเครื่องเล่นเสียงระบบดิจิตอลเริ่มเข้าสู่ตลาด MP3 ก็ถูกนำมาใช้เป็นมาตรฐานอย่างแพร่หลาย จึงเป็นที่มาของชื่อ "เครื่องเล่น MP3" ที่ได้รับความนิยม Sony เป็นข้อยกเว้นและใช้ตัว แปลงสัญญาณ ATRAC ของตนเองซึ่ง นำมาจาก รูปแบบ MiniDiscซึ่ง Sony อ้างว่าดีกว่า [118]หลังจากการวิพากษ์วิจารณ์และ ยอดขาย Walkman ต่ำกว่าที่คาดไว้ ในปี 2547 Sony ได้เปิดตัวการรองรับ MP3 ดั้งเดิมสำหรับเครื่องเล่น Walkman ของตนเป็นครั้งแรก [19]

นอกจากนี้ยังมีรูปแบบการบีบอัดแบบเปิด เช่นOpusและVorbisที่ให้บริการฟรีและไม่มีข้อจำกัดด้านสิทธิบัตรที่ทราบ รูปแบบการบีบอัดเสียงที่ใหม่กว่าบางรูปแบบ เช่น AAC, WMA Pro และ Vorbis นั้นไม่มีข้อจำกัดบางประการเกี่ยวกับรูปแบบ MP3 ที่ตัวเข้ารหัส MP3 ไม่สามารถเอาชนะได้ [93]

นอกจากวิธีการบีบอัดแบบ lossy แล้วรูปแบบ ที่ไม่สูญเสีย ข้อมูลยังเป็นทางเลือกที่สำคัญสำหรับ MP3 เนื่องจากมีเนื้อหาเสียงที่ไม่เปลี่ยนแปลง แม้ว่าจะมีขนาดไฟล์เพิ่มขึ้นเมื่อเทียบกับการบีบอัดแบบสูญเสียข้อมูล รูปแบบ Lossless ได้แก่FLAC (Free Lossless Audio Codec), Apple Losslessและอื่นๆ อีกมากมาย

ดูเพิ่มเติม

อ้างอิง

  1. ^ a b "สุขสันต์วันเกิด MP3!" . ฟรอนโฮเฟอร์ IIS 12 กรกฎาคม 2548 . สืบค้นเมื่อ18 กรกฎาคม 2010 .
  2. ^ "ประเภทสื่อเสียง/mpeg — RFC 3003" . ไออีทีเอฟ พฤศจิกายน 2000 . สืบค้นเมื่อ7 ธันวาคม 2552 .
  3. ^ "การลงทะเบียนประเภท MIME ของรูปแบบข้อมูลโหลด RTP — RFC 3555 " ไออีทีเอฟ กรกฎาคม 2546 . สืบค้นเมื่อ7 ธันวาคม 2552 .
  4. ^ a b "A More Loss-Tolerant RTP Payload Format for MP3 Audio — RFC 5219" . ไออีทีเอฟ กุมภาพันธ์ 2551 . สืบค้นเมื่อ4 ธันวาคม 2557 .
  5. ^ "ทีมงาน mp3" . รอนโฮเฟอร์ IIS สืบค้นเมื่อ12 มิถุนายน 2020 .
  6. Patel K, Smith BC, Rowe LA (1 กันยายน 1993) "ประสิทธิภาพของซอฟต์แวร์ถอดรหัสวิดีโอ MPEG " การดำเนินการของการประชุมนานาชาติ ACM ครั้งแรกเกี่ยวกับมัลติมีเดีย เอซีเอ็ม มัลติมีเดีย นครนิวยอร์ก: สมาคมเครื่องจักรคอมพิวเตอร์: 75–82 ดอย : 10.1145/166266.166274 . ISBN 978-0-89791-596-0.เอกสารอ้างอิงที่ 3 ในรายงานฉบับนี้กล่าวถึงร่างคณะกรรมการมาตรฐาน ISO/IEC 11172 วันที่ 6 ธันวาคม 2534
  7. ^ a b c d "ISO/IEC 11172-3:1993 – เทคโนโลยีสารสนเทศ — การเข้ารหัสภาพเคลื่อนไหวและเสียงที่เกี่ยวข้องสำหรับสื่อจัดเก็บข้อมูลดิจิทัลที่ความเร็วสูงสุดประมาณ 1,5 Mbit/s — ส่วนที่ 3: เสียง " ไอเอสโอ 2536 . สืบค้นเมื่อ14 กรกฎาคม 2010 .
  8. ^ a b c d "ISO/IEC 13818-3:1995 – เทคโนโลยีสารสนเทศ — การเข้ารหัสทั่วไปของภาพเคลื่อนไหวและข้อมูลเสียงที่เกี่ยวข้อง — ส่วนที่ 3: เสียง " ไอเอสโอ 1995 . สืบค้นเมื่อ14 กรกฎาคม 2010 .
  9. ^ "เทคโนโลยี MP3 ที่ Fraunhofer IIS" . รอนโฮเฟอร์ IIS เก็บ ถาวรจากต้นฉบับเมื่อ 15 สิงหาคม 2021 สืบค้นเมื่อ12 มิถุนายน 2020 .
  10. ^ MP3 (การเข้ารหัสเสียง MPEG Layer III) (ฉบับร่างเต็ม) ความยั่งยืนของรูปแบบดิจิทัล วอชิงตัน ดี.ซี.: หอสมุดรัฐสภา. 3 พฤษภาคม 2560 . สืบค้นเมื่อ1 ธันวาคมพ.ศ. 2564 .
  11. ^ ชยันต์, นิกิล ; จอห์นสตัน เจมส์; Safranek, Robert (ตุลาคม 2536) "การบีบอัดสัญญาณตามแบบจำลองการรับรู้ของมนุษย์". การดำเนินการ ของIEEE 81 (10): 1385–1422. ดอย : 10.1109/5.241504 .
  12. ^ "MP3 (การเข้ารหัสเสียง MPEG Layer III)" . หอสมุดรัฐสภา. 27 กรกฎาคม 2560 . สืบค้นเมื่อ9 พฤศจิกายน 2017 .
  13. ^ a b ISO (พฤศจิกายน 1991) "ข่าวประชาสัมพันธ์ MPEG คุริฮามะ พฤศจิกายน 2534" . ไอเอสโอ เก็บถาวรจากต้นฉบับเมื่อ 3 พฤษภาคม 2011 . สืบค้นเมื่อ17 กรกฎาคม 2010 .
  14. ^ a b c d e ISO (พฤศจิกายน 1991) "CD 11172-3 – โค้ดของภาพเคลื่อนไหวและเสียงที่สัมพันธ์กันสำหรับสื่อจัดเก็บข้อมูลดิจิทัลสูงสุดประมาณ 1.5 MBIT/s ส่วนที่ 3 เสียง" (PDF ) เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 30 ธันวาคม 2556 . สืบค้นเมื่อ17 กรกฎาคม 2010 .
  15. ^ a b ISO (6 พฤศจิกายน 1992) "ข่าวประชาสัมพันธ์ MPEG ลอนดอน 6 พฤศจิกายน 2535" . คิอาริลิโอเน เก็บถาวรจากต้นฉบับเมื่อ 12 สิงหาคม 2010 . สืบค้นเมื่อ17 กรกฎาคม 2010 .
  16. ^ a b c ISO (ตุลาคม 2541) "คำถามที่พบบ่อยเกี่ยวกับเสียง MPEG เวอร์ชัน 9 – MPEG-1 และ MPEG-2 BC " มาตรฐาน ISO สืบค้นเมื่อ28 ตุลาคม 2552 .
  17. เมเยอร์, ​​อัลเฟรด มาร์แชล (1894). "การวิจัยทางเสียง" . นิตยสารปรัชญาลอนดอน เอดินบะระและดับลิน 37 (226): 259–288. ดอย : 10.1080/14786449408620544 .
  18. เอห์เมอร์, ริชาร์ด เอช. (1959). "การกำบังด้วยโทนเสียงกับคลื่นเสียง". วารสารสมาคมเสียงแห่งอเมริกา . 31 (9): 1253. Bibcode : 1959ASAJ...31.1253E . ดอย : 10.1121/1.1907853 .
  19. ซวิคเกอร์, เอเบอร์ฮาร์ด (1974). "ในระดับจิตอะคูสติกเทียบเท่ากับการปรับเส้นโค้ง". ข้อเท็จจริงและแบบจำลองในการได้ยิน ข้อเท็จจริงและแบบจำลองในการได้ยิน (การประชุมสัมมนาเกี่ยวกับแบบจำลองทางจิตฟิสิกส์และข้อเท็จจริงทางสรีรวิทยาในการได้ยิน จัดขึ้นที่ Tuzing, Oberbayern, 22-26 เมษายน 2517 ) การสื่อสารและไซเบอร์เนติกส์ ฉบับที่ 8. หน้า  132 –141. ดอย : 10.1007/978-3-642-65902-7_19 . ISBN 978-3-642-65904-1.
  20. ^ ซวิคเกอร์ เอเบอร์ฮาร์ด; Feldtkeller, Richard (1999) [1967]. Das Ohr รับบทเป็น Nachrichtenempfänger [ The Ear as a Communication Receiver ] ทรานส์ โดย Hannes Müsch, Søren Buus และ Mary Florentine เก็บถาวรจากต้นฉบับเมื่อ 14 กันยายน 2000 . สืบค้นเมื่อ29 มิถุนายน 2551 .
  21. เฟล็ทเชอร์, ฮาร์วีย์ (1995). การพูดและการได้ยินในการสื่อสาร สมาคมเสียงแห่งอเมริกา. ISBN 978-1-56396-393-3.
  22. อรรถเป็น c Schroeder, Manfred R. (2014). "ห้องปฏิบัติการเบลล์" . อะคูสติก ข้อมูล และการสื่อสาร: เล่มอนุสรณ์เพื่อเป็นเกียรติแก่ Manfred R. Schroeder สปริงเกอร์. หน้า 388. ISBN 9783319056609.
  23. เกรย์, โรเบิร์ต เอ็ม. (2010). "ประวัติคำพูดดิจิทัลแบบเรียลไทม์บนเครือข่ายแพ็คเก็ต: ส่วนที่ II ของการเข้ารหัสแบบคาดการณ์เชิงเส้นและอินเทอร์เน็ตโปรโตคอล" (PDF ) พบ. กระบวนการสัญญาณเทรนด์ 3 (4): 203–303. ดอย : 10.1561/2000000036 . ISSN 1932-8346 .  
  24. ^ Atal, B.; ชโรเดอร์, เอ็ม. (1978). "การเข้ารหัสเชิงทำนายของสัญญาณเสียงพูดและเกณฑ์ความผิดพลาดเชิงอัตนัย". ICASSP '78. การประชุมนานาชาติ IEEE เกี่ยวกับเสียง คำพูด และการประมวลผลสัญญาณ 3 : 573–576. ดอย : 10.1109/ICASSP.1978.1170564 .
  25. ^ ชโรเดอร์ มร. ; Atal, บริติชโคลัมเบีย ; Hall, JL (ธันวาคม 2522) "การเพิ่มประสิทธิภาพ Coders คำพูดแบบดิจิทัลโดยใช้ประโยชน์จากคุณสมบัติการมาสก์ของหูมนุษย์" วารสารสมาคมเสียงแห่งอเมริกา . 66 (6): 1647. Bibcode : 1979ASAJ...66.1647S . ดอย : 10.1121/1.383662 .
  26. คราสเนอร์, แมสซาชูเซตส์ (18 มิถุนายน พ.ศ. 2522) การเข้ารหัสดิจิทัลของเสียงพูดและสัญญาณเสียงตามข้อกำหนดการรับรู้ของระบบการได้ยิน (วิทยานิพนธ์) สถาบันเทคโนโลยีแมสซาชูเซตส์. hdl : 1721.1/16011 .
  27. คราสเนอร์, แมสซาชูเซตส์ (18 มิถุนายน พ.ศ. 2522) "การเข้ารหัสคำพูดแบบดิจิทัลตามข้อกำหนดการรับรู้ของระบบการได้ยิน (รายงานทางเทคนิค 535)" (PDF ) เก็บถาวรจากต้นฉบับ(PDF)เมื่อวันที่ 3 กันยายน 2560
  28. อาเหม็ด, นาซีร์ (มกราคม 2534). "ฉันมากับการแปลงโคไซน์แบบไม่ต่อเนื่องได้อย่างไร" . การประมวลผล สัญญาณดิจิตอล 1 (1): 4–5. ดอย : 10.1016/1051-2004(91)90086-Z .
  29. ^ อาเหม็ด, นาซีร์ ; Natarajan, ต.; Rao, KR (มกราคม 1974), "Discrete Cosine Transform", ธุรกรรม IEEE บนคอมพิวเตอร์ , C-23 (1): 90–93, ดอย : 10.1109/TC.1974.223784
  30. ^ เรา, KR ; Yip, P. (1990), Discrete Cosine Transform: อัลกอริทึม, ข้อดี, การใช้งาน , Boston: Academic Press, ISBN 978-0-12-580203-1
  31. ^ JP Princen, AW Johnson และ AB Bradley:การเข้ารหัสย่อย/เปลี่ยนรูปแบบโดยใช้การออกแบบตัวกรองตัวกรองตามการยกเลิกนามแฝงโดเมนเวลา , IEEE Proc. นานาชาติ การประชุมเกี่ยวกับเสียง คำพูด และการประมวลผลสัญญาณ (ICASSP), 2161–2164, 1987
  32. ^ John P. Princen, Alan B. Bradley:การออกแบบคลังตัวกรองการวิเคราะห์/การสังเคราะห์ตามการยกเลิกนามแฝงโดเมนเวลา , IEEE Trans อะคูสติก การประมวลผลสัญญาณเสียงพูด, ASSP-34 (5), 1153–1161, 1986
  33. ^ a b Guckert, John (ฤดูใบไม้ผลิ 2012). "การใช้ FFT และ MDCT ในการบีบอัดเสียง MP3" (PDF ) มหาวิทยาลัยยูทาห์ . สืบค้นเมื่อ14 กรกฎาคม 2019 .
  34. ^ เทอร์ฮาร์ด อี.; สตอล, จี.; สีวรรณ, ม. (มีนาคม 2525). "อัลกอริธึมสำหรับการแยกระดับเสียงและความเอียงของระดับเสียงจากสัญญาณโทนสีที่ซับซ้อน" วารสารสมาคมเสียงแห่งอเมริกา . 71 (3): 679. Bibcode : 1982ASAJ...71..679T . ดอย : 10.1121/1.387544 .
  35. ^ a b "การเข้ารหัสด้วยเสียงเพื่อการสื่อสาร" IEEE Journal เกี่ยวกับพื้นที่ที่เลือกในการสื่อสาร 6 (2). กุมภาพันธ์ 2531
  36. ^ a b c Genesis of the MP3 Audio Coding Standard ในธุรกรรม IEEE บน Consumer Electronics, IEEE, Vol. 52, หมายเลข 3, pp. 1043–1049, สิงหาคม 2549
  37. บรันเดนบูร์ก, คาร์ลไฮนซ์; เซทเซอร์, ดีเทอร์ (3-6 พฤศจิกายน พ.ศ. 2531) OCF: การเข้ารหัสเสียงคุณภาพสูง ด้วยอัตราข้อมูล 64 kbit/s การประชุมครั้งที่ 85 ของสมาคมวิศวกรรมเสียง
  38. จอห์นสตัน, เจมส์ ดี. (กุมภาพันธ์ 1988). "แปลงการเข้ารหัสสัญญาณเสียงโดยใช้เกณฑ์การรับรู้เสียงรบกวน" IEEE Journal เกี่ยวกับพื้นที่ที่เลือกในการสื่อสาร 6 (2): 314–323. ดอย : 10.1109/49.608 .
  39. ^ YF Dehery และคณะ (1991) ตัวแปลงสัญญาณต้นทางของ MUSICAM สำหรับการแพร่ภาพและเสียงแบบดิจิตอล การดำเนินการตาม IEEE-ICASSP 91 หน้า 3605–3608 พฤษภาคม 1991
  40. ^ "คำอธิบาย DAB จาก Alan Box, EZ Communication และประธาน NAB DAB เฉพาะกิจ" (PDF )
  41. ^ EBU SQAM ซีดีบันทึกการประเมินคุณภาพเสียงสำหรับการทดสอบอัตนัย 7 ตุลาคม 2551.
  42. อรรถเป็น วิง แจ็ค (5 มีนาคม 2550) "MP3 เกิดขึ้นได้อย่างไร" . บลูมเบิร์ก บิสิเนส วีค . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  43. วิตต์, สตีเฟน (2016). ดนตรีมีอิสระได้อย่างไร: จุดจบของอุตสาหกรรม จุดเปลี่ยนแห่งศตวรรษ และศูนย์ผู้ป่วยแห่งการละเมิดลิขสิทธิ์ สหรัฐอเมริกา: หนังสือเพนกวิน. หน้า 13. ISBN 978-0143109341. Brandenburg and Grill เข้าร่วมโดยนักวิจัย Fraunhofer อีกสี่คน Heinz Gerhauser ดูแลกลุ่มวิจัยด้านเสียงของสถาบัน Harald Poppเป็นผู้เชี่ยวชาญด้านฮาร์ดแวร์ Ernst Eberlein เป็นผู้เชี่ยวชาญด้านการประมวลผลสัญญาณ Jurgen Herre เป็นนักศึกษาระดับบัณฑิตศึกษาอีกคนหนึ่งที่มีความสามารถทางคณิตศาสตร์เทียบเท่ากับ Brandenburg ในปีถัดมากลุ่มนี้จะเรียกตัวเองว่า "หกเดิม"
  44. โจนาธาน สเติร์น (17 กรกฎาคม 2555). MP3: ความหมายของรูปแบบ . สำนักพิมพ์มหาวิทยาลัยดุ๊ก. หน้า 178. ISBN 978-0-8223-5287-7.
  45. ^ "ซูซาน เวก้า | ไบโอ" . ชุมชนอย่างเป็นทางการของ Suzanne Vega สืบค้นเมื่อ17 มกราคม 2022 .
  46. ^ เทคโนโลยีการแพร่ภาพและเสียงแบบดิจิทัล: คู่มือวิศวกรรมเชิงปฏิบัติ (สัญญาณและเทคโนโลยีการสื่อสาร) ISBN 3-540-76357-0 p. 144: "ในปี 1988 วิธีการของ MASCAM ได้รับการพัฒนาที่ Institut für Rundfunktechnik (IRT) ในมิวนิก เพื่อเตรียมพร้อมสำหรับระบบกระจายเสียงดิจิตอล (DAB) จาก MASCAM นั้น MUSICAM (รูปแบบการกำบังรูปแบบสากลซับแบนด์ที่รวมการเข้ารหัสและมัลติเพล็กซ์) วิธีการนี้ได้รับการพัฒนาในปี 1989 โดยความร่วมมือกับ CCETT, Philips และ Matsushita" 
  47. ^ "รายงานสถานะของ ISO MPEG" (ข่าวประชาสัมพันธ์) องค์การระหว่างประเทศเพื่อการมาตรฐาน . กันยายน 2533 เก็บถาวรจากต้นฉบับเมื่อ 14 กุมภาพันธ์ 2553
  48. ^ "Aspec-Adaptive Spectral Entropy Coding of High Quality Music Signals" . ห้องสมุด อิเล็กทรอนิกส์AES 1991 . สืบค้นเมื่อ24 สิงหาคม 2010 .
  49. ^ a b "นำมาใช้ในการประชุม WG11 ครั้งที่ 22" (ข่าวประชาสัมพันธ์) องค์การระหว่างประเทศเพื่อการมาตรฐาน . 2 เมษายน 2536 เก็บถาวรจากต้นฉบับเมื่อ 6 สิงหาคม 2553 . สืบค้นเมื่อ18 กรกฎาคม 2010 .
  50. บรันเดนบูร์ก, คาร์ลไฮนซ์; Bosi, Marina (กุมภาพันธ์ 1997) "ภาพรวมของ MPEG Audio: มาตรฐานปัจจุบันและอนาคตสำหรับการเข้ารหัสเสียงอัตราบิตต่ำ " วารสารสมาคมวิศวกรรมเสียง . 45 (1/2): 4–21 . สืบค้นเมื่อ30 มิถุนายน 2551 .
  51. ^ a b c d "รายละเอียดทางเทคนิค MP3 (MPEG-2 และ MPEG-2.5) " รอนโฮเฟอร์ IIS กันยายน 2550 เก็บถาวรจากต้นฉบับเมื่อวันที่ 24 มกราคม 2551 "MPEG-2.5" เป็นชื่อของส่วนขยายที่เป็นกรรมสิทธิ์ซึ่งพัฒนาโดย Fraunhofer IIS ช่วยให้ MP3 ทำงานได้อย่างน่าพอใจที่บิตเรตที่ต่ำมากและแนะนำความถี่สุ่มเพิ่มเติม 8 kHz, 11.025 kHz และ 12 kHz
  52. ↑ a b c d e f g h Supurovic , Predrag (22 ธันวาคม 1999) "ส่วนหัว ของเฟรมเสียง MPEG" สืบค้นเมื่อ 29 พฤษภาคม 2552
  53. ^ a b c "ISO/IEC 13818-3:1994(E) – Information Technology — Generic Coding of Moving Pictures and Associated Audio: Audio" (ZIP ) 11 พฤศจิกายน 2537 . สืบค้นเมื่อ4 สิงหาคม 2010 .
  54. ^ MPEG (25 มีนาคม 2537) "อนุมัติในการประชุมครั้งที่ 26 (ปารีส)" . เก็บถาวรจากต้นฉบับเมื่อ 26 กรกฎาคม 2010 . สืบค้นเมื่อ5 สิงหาคม 2010 .
  55. ^ MPEG (11 พฤศจิกายน 2537) "อนุมัติในการประชุมครั้งที่ 29" . เก็บถาวรจากต้นฉบับเมื่อ 8 สิงหาคม 2010 . สืบค้นเมื่อ5 สิงหาคม 2010 .
  56. ^ ไอเอสโอ "ISO/IEC TR 11172-5: 1998 – เทคโนโลยีสารสนเทศ – การเข้ารหัสภาพเคลื่อนไหวและเสียงที่เกี่ยวข้องสำหรับสื่อจัดเก็บข้อมูลดิจิทัลที่ความเร็วสูงสุดประมาณ 1,5 Mbit/s – ส่วนที่ 5: การจำลองซอฟต์แวร์" สืบค้นเมื่อ5 สิงหาคม 2010 .
  57. ^ "ISO/IEC TR 11172-5: 1998 – เทคโนโลยีสารสนเทศ – การเข้ารหัสภาพเคลื่อนไหวและเสียงที่เกี่ยวข้องสำหรับสื่อจัดเก็บข้อมูลดิจิทัลที่ความเร็วสูงสุดประมาณ 1,5 Mbit/s – ส่วนที่ 5: การจำลองซอฟต์แวร์ (ซอฟต์แวร์อ้างอิง)" (ZIP) . สืบค้นเมื่อ5 สิงหาคม 2010 .
  58. เดเฮรี, อีฟส์-ฟรองซัวส์ (1994). มาตรฐานการเข้ารหัสเสียงคุณภาพสูงสำหรับระบบกระจายเสียง โทรคมนาคม และระบบมัลติมีเดีย เนเธอร์แลนด์: Elsevier Science BV. น. 53–64. ISBN 978-0-444-81580-4. บทความนี้กล่าวถึงเวิร์คสเตชั่นเสียงดิจิตอลแบบบีบอัดของ Musicam (MPEG Audio Layer II) ที่ใช้งานบนไมโครคอมพิวเตอร์ ซึ่งไม่เพียงแต่ใช้เป็นสถานีตัดต่อแบบมืออาชีพเท่านั้น แต่ยังใช้เป็นเซิร์ฟเวอร์บนอีเทอร์เน็ตสำหรับไลบรารีเสียงดิจิทัลแบบบีบอัดด้วย ดังนั้นจึงเป็นการคาดการณ์ถึง MP3 บนอินเทอร์เน็ตในอนาคต
  59. ^ "เทคโนโลยี MP3 ของวันนี้" . ข้อมูล มากมายเกี่ยวกับดนตรี 2548. เก็บถาวรจากต้นฉบับเมื่อ 4 กรกฎาคม 2551 . สืบค้นเมื่อ15 กันยายน 2559 .
  60. โจนาธาน สเติร์น (17 กรกฎาคม 2555). MP3: ความหมายของรูปแบบ . สำนักพิมพ์มหาวิทยาลัยดุ๊ก. หน้า 202. ISBN 978-0-8223-5287-7.
  61. ^ ตู้เพลงสวรรค์บนมหาสมุทรแอตแลนติก "เพื่อแสดงให้อุตสาหกรรมทราบถึงวิธีการใช้ตัวแปลงสัญญาณ MPEG ได้รวมโปรแกรมตัวอย่างฟรีที่แปลงเพลงเป็นไฟล์ MP3 ซอฟต์แวร์สาธิตสร้างเสียงคุณภาพต่ำและ Fraunhofer ไม่ได้ตั้งใจที่จะใช้ "ซอร์สโค้ด" ของซอฟต์แวร์ซึ่งเป็นคำแนะนำพื้นฐาน ถูกจัดเก็บไว้ในคอมพิวเตอร์ที่เข้าถึงได้ง่ายที่มหาวิทยาลัย Erlangen ซึ่งถูกดาวน์โหลดโดย SoloH ซึ่งเป็นแฮ็กเกอร์ในเนเธอร์แลนด์ (และมีผู้สันนิษฐานว่าเป็นแฟน Star Wars) SoloH ปรับปรุงซอร์สโค้ดใหม่เพื่อผลิตซอฟต์แวร์ที่แปลงแทร็กจากคอมแพคดิสก์เป็นไฟล์เพลงที่มีคุณภาพที่ยอมรับได้" (2000)
  62. ไอดอลป๊อปและโจรสลัด: กลไกการบริโภคและการไหลเวียนของโลก ...โดย ดร.ชาร์ลส์ แฟร์ไชลด์
  63. ^ เทคโนโลยีแห่งการละเมิดลิขสิทธิ์? - สำรวจความสัมพันธ์ระหว่างการค้าขายกับอุดมคติในการพัฒนา MP3 และ DivXโดย HENDRIK STORSTEIN SPILKER, SVEIN HÖIER, หน้า 2072
  64. ^ www.euronet.nl/~soloh/mpegEnc/ ( Archive.org )
  65. ^ "เกี่ยวกับ Internet Underground Music Archive" .
  66. อรรถเป็น ชูเบิร์ต รูธ (10 กุมภาพันธ์ 2542) เชี่ยวชาญด้านเทคนิคในการหาเพลงสำหรับเพลง อุตสาหกรรมผิดหวังที่อินเทอร์เน็ตทำให้เพลงฟรีเป็นเรื่องง่าย ซีแอตเทิลโพสต์อินเทลลิ เจนเซอร์ สืบค้นเมื่อ22 พฤศจิกายน 2551 .
  67. กีสเลอร์, มาร์คุส (2008) "ความขัดแย้งและการประนีประนอม: ละครในวิวัฒนาการของตลาด". วารสารวิจัยผู้บริโภค . 34 (6): 739–753. CiteSeerX 10.1.1.564.7146 . ดอย : 10.1086/522098 . S2CID 145796529 .  
  68. อรรถเป็น c d บูวีญ, กาเบรียล (2003). "เทคโนโลยี MP3 — ข้อจำกัด" . เก็บจากต้นฉบับเมื่อ 7 มกราคม 2011
  69. ^ "ISO/IEC 11172-3:1993/Cor 1:1996" . องค์การระหว่างประเทศเพื่อการมาตรฐาน . 2549 . สืบค้นเมื่อ27 สิงหาคม 2552 .
  70. ลิเบอร์มัน, เซอร์เบีย. DSP - เทคโนโลยีเบื้องหลังมัลติมีเดีย
  71. อาโมริม, โรแบร์โต (3 สิงหาคม พ.ศ. 2546) "ผลการทดสอบการฟังสาธารณะส่วนขยาย 128 kbit/s " สืบค้นเมื่อ17 มีนาคม 2550 .
  72. มาเรส เซบาสเตียน (ธันวาคม 2548) "ผลการทดสอบการฟังหลายรูปแบบสาธารณะ @ 128 kbps" . สืบค้นเมื่อ17 มีนาคม 2550 .
  73. โดเฮอร์ตี้, เดล (1 มีนาคม 2552). "เสียงดนตรีอันไพเราะ" . โอ เรลลีเรดาร์
  74. ^ "พบกับนักดนตรีผู้มีญาณทิพย์ผู้พบผีใน MP3 ของคุณ " นอยซี่ . 18 มีนาคม 2558.
  75. ^ "ผีใน mp3" . 15 มีนาคม 2558.
  76. "Lost and Found: U.Va. Grad Student Discovers Ghosts in the MP3" . ยูวีเอวันนี้ 23 กุมภาพันธ์ 2558.
  77. ^ ผีใน MP3
  78. ^ "คู่มือตัวเลือกบรรทัดคำสั่ง (ใน CVS) " สืบค้นเมื่อ4 สิงหาคม 2010 .
  79. ^ "คู่มือการใช้งาน JVC RC-EX30" (PDF) (ในหลายภาษา) พ.ศ. 2547 น. 14. ค้นหา – ระบุตำแหน่งที่ต้องการบนแผ่นดิสก์ (audio CD เท่านั้น) (2004 บูมบ็อกซ์ )
  80. ^ "DV-RW250H คู่มือการใช้งาน GB" (PDF ) พ.ศ. 2547 น. 33. • กรอเดินหน้าอย่างเร็วและทบทวนการเล่นไม่ได้กับ MP3/WMA/JPEG-CD
  81. ^ "การเปรียบเทียบคุณภาพเสียงของเสียงความละเอียดสูงกับซีดีกับ MP3 " www.sony.com . โซนี่. สืบค้นเมื่อ11 สิงหาคม 2020 .
  82. วุน-เส็ง กัน; Sen-Maw Kuo (2007). การประมวลผลสัญญาณแบบฝังด้วยสถาปัตยกรรมไมโครสัญญาณ Wiley -IEEE กด หน้า 382. ISBN 978-0-471-73841-1.
  83. บูวีญ, กาเบรียล (28 พฤศจิกายน พ.ศ. 2549) "รูปแบบอิสระที่ 640 kbit/s และ foobar2000 เป็นไปได้ไหม" . สืบค้นเมื่อ15 กันยายน 2559 .
  84. ^ "อ่อนแอ(1): สร้างไฟล์เสียง mp3 - หน้าคนลินุกซ์ " ลินุกซ์ . die.net สืบค้นเมื่อ22 สิงหาคม 2020 .
  85. ^ "Linux Manpages Online - หน้าคู่มือ man.cx " แมน . cx สืบค้นเมื่อ22 สิงหาคม 2020 .
  86. ↑ a b " GPSYCHO – Variable Bit Rate" . ตัวเข้ารหัส MP3 LAME สืบค้นเมื่อ11 กรกฎาคม 2552 .
  87. ^ "TwoLAME: MPEG Audio Layer II VBR" . สืบค้นเมื่อ11 กรกฎาคม 2552 .
  88. ^ กลุ่มย่อยเสียง ISO MPEG "คำถามที่พบบ่อยเกี่ยวกับเสียง MPEG เวอร์ชัน 9: MPEG-1 และ MPEG-2 BC " สืบค้นเมื่อ11 กรกฎาคม 2552 .
  89. ^ "สวิตช์ LAME Y" . ฐาน ความรู้ Hydrogenaudio สืบค้นเมื่อ23 มีนาคม 2558 .
  90. ^ แร, เคซี่ย์. "ข้อมูลเมตาและคุณ" . อนาคต ของพันธมิตรดนตรี สืบค้นเมื่อ12 ธันวาคม 2557 .
  91. ^ พาเทล เคตัน; สมิธ, ไบรอัน ซี.; Rowe, Lawrence A. ประสิทธิภาพของซอฟต์แวร์ถอดรหัสวิดีโอ MPEG (PDF ) การประชุม ACM Multimedia 1993
  92. ^ "คำถามที่พบบ่อย MPEG เวอร์ชัน 3.1 " 14 พฤษภาคม 2537 เก็บถาวรจากต้นฉบับเมื่อ 23 กรกฎาคม 2552
  93. ^ a b "A Big List of MP3 Patents (และควรหมดอายุ) " จู นเค วส 26 กุมภาพันธ์ 2550
  94. โกกลิอาตี, จอช (20 กรกฎาคม 2008). "สถานะสิทธิบัตร MPEG-1, H.261 และ MPEG-2 " คุ โร5ฮิ น.งานนี้ล้มเหลวในการพิจารณาแผนกสิทธิบัตรและความต่อเนื่อง
  95. ^ สิทธิบัตรสหรัฐอเมริกาหมายเลข 5812672
  96. ^ "สิทธิบัตรสหรัฐอเมริกาหมดอายุสำหรับ MP3, MPEG-2, H.264 " โอเอสนิวส์.com
  97. ^ "สิทธิบัตร US6009399 – วิธีการและอุปกรณ์สำหรับการเข้ารหัสสัญญาณดิจิทัล ... – สิทธิบัตรของ Google "
  98. ^ "mp3licensing.com – สิทธิบัตร" . mp3licensing.com .
  99. ^ "รองรับ MP3 เต็มรูปแบบใน Fedora เร็วๆ นี้ " 5 พฤษภาคม 2560.
  100. ^ "การบีบอัดข้อมูลเสียง – สิทธิบัตรฐาน MP3" . มูลนิธิเพื่อโครงสร้างพื้นฐานข้อมูลฟรี 15 มกราคม 2548 เก็บถาวรจากต้นฉบับเมื่อ 15 กรกฎาคม 2550 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  101. ^ "ทรัพย์สินทางปัญญาและการอนุญาต" . เทคนิค คัลเลอร์ เก็บถาวรจากต้นฉบับเมื่อ 4 พฤษภาคม 2011
  102. คิสเทนเฟเกอร์, มูซิเน่ (กรกฎาคม 2550) "สมาคม Fraunhofer (Fraunhofer-Gesellschaft, FhG)" . สถานกงสุลใหญ่อังกฤษ-มิวนิก. เก็บถาวรจากต้นฉบับเมื่อ 18 สิงหาคม 2002 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  103. ^ "การบังคับใช้สิทธิบัตร MP3 ในช่วงต้น" . Chilling Effects สำนักหักบัญชี 1 กันยายน 2541 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  104. ^ "โปรแกรมออกใบอนุญาต MPEG Audio ของSISVEL"
  105. ^ "Audio MPEG and Sisvel: Thomson ถูกฟ้องในข้อหาละเมิดสิทธิบัตรในยุโรปและสหรัฐอเมริกา — เครื่องเล่น MP3 ถูกสั่งห้ามโดยศุลกากร " ZDNetอินเดีย 6 ตุลาคม 2548 เก็บถาวรจากต้นฉบับเมื่อ 11 ตุลาคม 2550 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  106. ^ "ให้สิทธิ์ใช้งานสิทธิบัตรเสียง MP3 และ MPEG 2 แก่ Motorola " ซิสเวล 21 ธันวาคม 2548 เก็บถาวรจากต้นฉบับเมื่อ 21 มกราคม 2557 . สืบค้นเมื่อ18 มกราคม 2014 .
  107. ^ "สิทธิบัตร US MPEG Audio" (PDF ) ซิสเวล.
  108. อ็อก, เอริกา (7 กันยายน พ.ศ. 2549). "คำสั่งยึด SanDisk MP3 พลิกคว่ำ" . ข่าวCNET เก็บถาวรจากต้นฉบับเมื่อ 4 พฤศจิกายน 2555 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  109. ^ "Sisvel นำสิทธิบัตร Wild West มาสู่เยอรมนี " บล็อกIPEG 7 กันยายน 2549 . สืบค้นเมื่อ24 กรกฎาคม 2550 .
  110. ^ "Apple, SanDisk Settle Texas MP3 Patent Spat" . กฎหมายทรัพย์สิน ทางปัญญา360 26 มกราคม 2552 . สืบค้นเมื่อ16 สิงหาคม 2010 .
  111. ^ "เบเกอร์บอตส์มืออาชีพ LLP: ลิซ่า แคทเธอรีน เคลลี่ — ผู้แทนหมั้น " Baker Botts LLP . เก็บถาวรจากต้นฉบับเมื่อ 10 ธันวาคม 2557 . สืบค้นเมื่อ15 กันยายน 2559 .
  112. ^ "Microsoft เผชิญกับการจ่ายเงิน MP3 1.5 พันล้านดอลลาร์ " ข่าวบีบีซี 22 กุมภาพันธ์ 2550 . สืบค้นเมื่อ30 มิถุนายน 2551 .
  113. ^ "Microsoft ชนะการพลิกกลับของคำตัดสินสิทธิบัตร MP3 " CNET . 6 สิงหาคม 2550 . สืบค้นเมื่อ17 สิงหาคม 2010 .
  114. ^ "ศาลอุทธรณ์สำหรับคำตัดสินของศาลกลาง" (PDF ) 25 กันยายน 2551 เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 29 ตุลาคม 2551
  115. อรรถเป็น บรันเดนบูร์ก, คาร์ลไฮนซ์ (1999). "อธิบาย MP3 และ AAC " เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 19 ตุลาคม 2557
  116. ^ "Via Licensing ประกาศอัปเดตใบอนุญาตสิทธิบัตรร่วม AAC " สายธุรกิจ . 5 มกราคม 2552 . สืบค้นเมื่อ18 มิถุนายน 2019 .
  117. ^ "ผู้อนุญาต AAC" . ผ่านคอร์ปอเรชั่น สืบค้นเมื่อ6 กรกฎาคม 2019 .
  118. แมริออท มิเชล (30 กันยายน 2542). "NEWS WATCH ผู้เล่นใหม่จาก Sony ยอมให้ MP3 ผงาด" . เดอะนิวยอร์กไทม์ส .
  119. ^ "Sony NW-E105 Network Walkman" .

อ่านเพิ่มเติม

ลิงค์ภายนอก

  • MP3ที่Curlie
  • MP3-history.com , เรื่องราวของ MP3: วิธีสร้าง MP3 โดย Fraunhofer IIS
  • MP3 News Archive Archived 3 มีนาคม 2019 ที่Wayback Machineบทความกว่า 1,000 บทความตั้งแต่ปี 1999 ถึง 2011 เน้นที่ MP3 และเสียงดิจิตอล
  • MPEG.chiariglione.org , เว็บไซต์ทางการของ MPEG
0.12831091880798