تأثير التصميم

في منهجية المسح ، فإن تأثير التصميم (يشار إليه عمومًا باسم أو ) هو مقياس للتأثير المتوقع لتصميم العينة على تباين مقدر لبعض المعلمات . يتم حسابه كنسبة تباين مقدر بناءً على عينة من تصميم أخذ عينات معقد (غالبًا) ، إلى تباين مقدر بديل بناءً على عينة عشوائية بسيطة (SRS) لنفس عدد العناصر. [1] : 258 يمكن استخدام Deff (سواء كان مقدّرًا أو معروفًا مسبقًا) لتعديل تباين مقدر في الحالات التي لا يتم فيها رسم العينة باستخدام أخذ عينات عشوائية بسيطة. قد يكون مفيدًا أيضًا في حسابات حجم العينة ولقياس تمثيل العينة. مصطلح "تأثير التصميم" صاغته ليزلي كيش في عام 1965.

تأثير التصميم هو رقم حقيقي موجب يشير إلى تضخم ( ) ، أو انكماش ( ) في تباين مقدر لبعض المعلمات ، وذلك بسبب عدم استخدام الدراسة لـ SRS (مع ، عندما تكون الفروق متطابقة). [2] : 53 ، 54 

تتضمن بعض العينات المعقدة المحتملة التي يمكن أن تقدم Deff التي تختلف عن 1: أخذ العينات العنقودية (مثل عندما يكون هناك ارتباط بين الملاحظات) ، وأخذ العينات الطبقية ، والتجربة العشوائية العنقودية ، والعينة غير المتناسبة (الاحتمالية غير المتكافئة) ، وعدم التغطية ، وعدم الاستجابة ، التعديلات الإحصائية للبيانات ، إلخ.

يمكن استخدام Deff في حسابات حجم العينة ، وتحديد ممثل العينة (إلى السكان المستهدفين) ، وكذلك لتعديل (تضخيم غالبًا) تباين بعض المقدر (في الحالات التي يمكننا فيها حساب تباين المقدر بافتراض SRS). [3]

صاغ مصطلح "تأثير التصميم" ليزلي كيش في عام 1965. [1] : 88 ، 258  منذ ذلك الحين ، تم اقتراح العديد من الحسابات (والمقدرات) ، في الأدبيات ، لوصف تأثير تصميم العينات المعروف على الزيادة / انخفاض في تباين مقدرات الفائدة. بشكل عام ، يختلف تأثير التصميم بين إحصائيات الاهتمامات ، مثل الإجمالي أو متوسط ​​النسبة ؛ من المهم أيضًا إذا كان التصميم (على سبيل المثال: احتمالات الاختيار) مرتبطًا بنتيجة الاهتمام. وأخيرًا ، يتأثر بتوزيع النتيجة نفسها. يجب أخذ كل هذه الأمور في الاعتبار عند تقدير تأثير التصميم واستخدامه في الممارسة العملية. [4] : 13 

تعريفات

ديف

تأثير التصميم (Deff ، أو ) هو نسبة تباينين ​​نظريين لمقدرات بعض المعلمات ( ) : [1] [5]

  • في البسط هو التباين الفعلي لمقدر بعض المعلمات ( ) في تصميم أخذ عينات معين ؛
  • في المقام هو التباين الذي يفترض نفس حجم العينة ، ولكن إذا تم الحصول على العينة باستخدام المقدر ، فسنستخدمها لأخذ عينة عشوائية بسيطة دون استبدال ( ).

لهذا السبب:

بعبارة أخرى ، هو مقدار الزيادة التي زاد التباين (أو انخفض ، في بعض الحالات) نظرًا لسحب العينة وتعديلها وفقًا لتصميم أخذ العينات المحدد (على سبيل المثال: استخدام الأوزان أو المقاييس الأخرى) كما لو كانت العينة بدلاً من ذلك كان من عينة عشوائية بسيطة (بدون استبدال). هناك العديد من طرق الحساب ، اعتمادًا على معلمة الفائدة (على سبيل المثال: إجمالي السكان ، متوسط ​​السكان ، الكميات ، نسبة الكميات وما إلى ذلك) ، المقدر المستخدم ، وتصميم أخذ العينات (على سبيل المثال: أخذ العينات العنقودية ، أخذ العينات الطبقية ، ما بعد التقسيم الطبقي ، أخذ العينات متعدد المراحل ، إلخ).

لتقدير متوسط ​​السكان ، يكون Deff (لبعض تصميمات العينات ، p) هو: [4] : ​​4  [2] : 54 

حيث n هو حجم العينة ، و f هو جزء العينة من المجتمع (n / N) ، (1-f) هو (التربيع) تصحيح المجتمع المحدود (FPC ) ، وهو تباين العينة غير المحسوب .

يتم تقدير تباين الوحدة (أو تباين العنصر) عند ضرب D في تباين العنصر ، وذلك لدمج جميع تعقيدات تصميم العينة. [1] : 259 

لاحظ كيف يعتمد تعريف Deff على معاملات المجتمع التي لا نعرفها غالبًا (على سبيل المثال: تباينات المقدر في إطار تصميمين مختلفين لأخذ العينات). سيتم وصف عملية تقدير Deff لتصميمات معينة في القسم التالي. [6] : 98 

الصيغة العامة لتأثير التصميم (النظري) لتقدير إجمالي (وليس المتوسط) ، لبعض التصميمات ، مذكورة في كوكران 1977. [2] : 54 

ماهر

الكمية ذات الصلة بـ Deff ، التي اقترحها Kish في عام 1995 ، تسمى Deft (عامل تأثير التصميم). [7] : 56  [4] يتم تعريفه على الجذر التربيعي لنسب التباين ، ويستخدم المقام أيضًا عينة عشوائية بسيطة مع الاستبدال (srswr) ، بدلاً من الاستبدال (srswor):

في هذا التعريف اللاحق (تم اقتراحه في عام 1995 ، مقابل 1965) قيل إن srs "بدون استبدال" (مع تأثيرها الإيجابي على التباين) يجب أن يتم تسجيلها في تعريف تأثير التصميم ، حيث إنه جزء من تصميم أخذ العينات. كما أنه مرتبط بشكل مباشر أكثر بالاستخدام في الاستدلال (نظرًا لأننا غالبًا ما نستخدم + Z * DE * SE ، وليس + Z * DE * VAR عند إنشاء فترات الثقة ). أيضًا نظرًا لأن تصحيح عدد السكان المحدود (FPC) يصعب أيضًا حسابه في بعض المواقف. ولكن في كثير من الحالات عندما يكون عدد السكان كبيرًا جدًا ، يكون Deft (تقريبًا) هو الجذر التربيعي لـ Deff ( ).

كانت النية الأصلية لـ Deft هي جعلها "تعبر عن تأثيرات تصميم العينة بما يتجاوز التباين الأولي ، وإزالة كل من وحدة القياس وحجم العينة كمعلمات مزعجة" ، ويتم ذلك من أجل جعل تأثير التصميم قابلاً للتعميم (مناسب لـ) العديد من الإحصائيات والمتغيرات داخل نفس المسح (وحتى بين الاستطلاعات). [7] : 55  ومع ذلك ، فقد أظهرت أعمال المتابعة أن حساب تأثير التصميم ، للمعلمات مثل إجمالي السكان أو المتوسط ​​، يعتمد على تباين مقياس النتيجة ، مما يحد من التطلع الأصلي لكيش لهذا المقياس. ومع ذلك ، قد تكون هذه العبارة فضفاضة (على سبيل المثال: في ظل بعض الظروف) صحيحة بالنسبة للمتوسط ​​المرجح . [4] : 5 

حجم العينة الفعال

حجم العينة الفعال ، الذي حدده كيش أيضًا في عام 1965 ، هو حجم العينة الأصلي مقسومًا على تأثير التصميم. [1] : 162 ، 259  [8] : 190 ، 192  تعكس هذه الكمية حجم العينة المطلوب لتحقيق التباين الحالي للمقدر (لبعض المتغيرات) مع التصميم الحالي ، إذا كان تصميم العينة (و مقدر المعلمات ذات الصلة) على عينة عشوائية بسيطة . [9]

يسمى:

بعبارة أخرى ، يوضح عدد الاستجابات المتبقية لدينا عند استخدام مقدر يتكيف بشكل صحيح مع تأثير تصميم تصميم العينة. على سبيل المثال ، استخدام المتوسط ​​المرجح مع ترجيح الاحتمال العكسي ، بدلاً من المتوسط ​​البسيط .

من الممكن أيضًا الحصول على نسبة حجم العينة الفعالة بأخذ معكوس Deff (أي:) .

عند استخدام تأثير تصميم Kish للأوزان غير المتساوية ، يمكنك استخدام الصيغة المبسطة التالية لـ " حجم عينة Kish الفعال" [ 10] [1] : 162 ، 259 

تأثير التصميم لتصاميم أخذ العينات المعروفة

يحدد تصميم أخذ العينات كيفية حساب تأثير التصميم

تختلف تصميمات أخذ العينات المختلفة اختلافًا كبيرًا في تأثيرها على المقدرين (مثل المتوسط) من حيث تحيزها وتباينها.

على سبيل المثال ، في حالة أخذ العينات العنقودية ، قد يكون للوحدات احتمالات اختيار متساوية أو غير متكافئة ، بغض النظر عن ارتباطها داخل الطبقة(وتأثيرها السلبي في زيادة تباين مقدراتنا). في حالة أخذ العينات الطبقية ، قد تكون الاحتمالات متساوية (EPSEM) أو غير متساوية. ولكن بغض النظر ، فإن استخدام المعلومات السابقة عن حجم الطبقة في المجتمع ، خلال مرحلة أخذ العينات ، يمكن أن يؤدي إلى كفاءة إحصائية لمقدراتنا. على سبيل المثال: إذا علمنا أن الجنس مرتبط بنتائج اهتمامنا ، ونعلم أيضًا أن نسبة الذكور إلى الإناث لبعض السكان هي 50٪ -50٪. ثم إذا تأكدنا من أخذ عينة من نصف كل جنس بالضبط ، فقد قللنا من تباين المقدرات لأننا أزلنا التباين الناجم عن النسبة غير المتكافئة للذكور والإناث في عينتنا. أخيرًا ، في حالة التكيف مع عدم التغطية أو عدم الاستجابة أو تقسيم طبقة معينة من السكان (غير متاح أثناء مرحلة أخذ العينات) ، قد نستخدم الإجراءات الإحصائية (على سبيل المثال: ما بعد التقسيم الطبقي وغيرها). قد تؤدي نتيجة هذه الإجراءات إلى تقديرات احتمالات أخذ العينات المتشابهة أو المختلفة تمامًا عن احتمالات أخذ العينات الحقيقية للوحدات. تعتمد جودة هؤلاء المقدرين على جودة المعلومات المساعدة ومفقودة في الافتراضات العشوائية المستخدمة في إنشائها. حتى عندما تتمكن مقدرات احتمالية أخذ العينات (درجات الميل) من التقاط معظم الظواهر التي أنتجتها - قد يكون تأثير احتمالات الاختيار المتغيرة على المقدرين صغيرًا أو كبيرًا ، اعتمادًا على البيانات (التفاصيل في القسم التالي).

نظرًا للتنوع الكبير في تصميمات أخذ العينات (مع أو بدون تأثير على احتمالات الاختيار غير المتكافئة) ، تم تطوير صيغ مختلفة لالتقاط تأثير التصميم المحتمل ، وكذلك لتقدير التباين الصحيح للمقدر. في بعض الأحيان ، يمكن أن تتراكم تأثيرات التصميم المختلفة هذه معًا (كما في حالة احتمالية الاختيار غير المتكافئة وأخذ العينات العنقودية ، مزيد من التفاصيل في الأقسام التالية). يعتمد ما إذا كان سيتم استخدام هذه الصيغ أم لا ، أو مجرد افتراض SRS ، على المقدار المتوقع من التحيز المنخفض مقابل الزيادة في تباين المقدر (وفي النفقات العامة للتعقيد المنهجي والتقني). [1] : 426 

احتمالات الاختيار غير المتكافئة

مصادر احتمالات الاختيار غير المتكافئة

هناك طرق مختلفة لأخذ عينات من الوحدات بحيث يكون لكل وحدة نفس احتمالية الاختيار بالضبط. تسمى هذه الطرق طرق أخذ العينات الاحتمالية المتساوية (EPSEM). تتضمن بعض الطرق الأساسية عينة عشوائية بسيطة (SRS ، إما مع أو بدون استبدال) وأخذ عينات منهجي للحصول على حجم عينة ثابت. هناك أيضًا أخذ عينات من برنولي بحجم عينة عشوائي. تقنيات أكثر تقدمًا مثل أخذ العينات الطبقية وأخذ العينات العنقوديةيمكن أيضًا تصميمه ليكون EPSEM. على سبيل المثال ، في أخذ العينات العنقودية ، يمكننا التأكد من أخذ عينة من كل عنقود باحتمالية تتناسب مع حجمها ، ثم قياس جميع الوحدات داخل الكتلة. تتمثل الطريقة الأكثر تعقيدًا لأخذ العينات العنقودية في استخدام أخذ العينات على مرحلتين حيث نقوم بأخذ عينات المجموعات في المرحلة الأولى (كما كان من قبل ، بما يتناسب مع حجم الكتلة) ، وعينة من كل مجموعة في المرحلة الثانية باستخدام SRS بنسب ثابتة ( على سبيل المثال: عينة نصف الكتلة). [11] : 3-8 

يسلط كيش وآخرون الضوء في أعمالهم على عدة أسباب معروفة تؤدي إلى عدم تكافؤ احتمالات الاختيار: [1] : 425  [8] : 185  [7] : 69  [12] : 50 ، 395  [13] : 306 

  1. أخذ العينات غير المتناسب بسبب إطار الاختيار أو الإجراء. يحدث هذا عندما يصمم الباحث عينته عن قصد بحيث تزيد / تقل عن عينة مجموعات فرعية أو مجموعات محددة. هناك العديد من الحالات التي قد يحدث فيها هذا. على سبيل المثال:
    • في أخذ العينات الطبقية عندما يكون من المعروف أن الوحدات من بعض الطبقات لديها تباين أكبر من الطبقات الأخرى. في مثل هذه الحالات ، قد يكون نية الباحث استخدام هذه المعرفة السابقة حول التباين بين الطبقة من أجل تقليل التباين العام لمقدر لبعض معلمات مستوى المجتمع محل الاهتمام (على سبيل المثال: المتوسط). يمكن تحقيق ذلك من خلال إستراتيجية تُعرف باسم التخصيص الأمثل ، حيث تكون الطبقة فيها أعلى من العينات بما يتناسب مع الانحراف المعياري الأعلى وتكلفة أخذ العينات الأقل (على سبيل المثال: أين الانحراف المعياري للنتيجة ، ويتعلق بتكلفة توظيف واحدة. عنصر من ). مثال على التخصيص الأمثل هو التخصيص الأمثل لـ Neymanوالتي ، عندما تكون التكلفة ثابتة لتجنيد كل طبقة ، يكون حجم العينة :. حيث يكون المحصل على كل الطبقات ؛ n هو الحجم الإجمالي للعينة ؛ هو حجم عينة الطبقة ح ؛ الحجم النسبي للطبقة h مقارنة بكامل السكان N ؛ وهو الخطأ المعياري في الطبقة h . المفهوم المرتبط بالتصميم الأمثل هو التصميم التجريبي الأمثل .
    • إذا كان هناك اهتمام بمقارنة طبقتين (على سبيل المثال: أشخاص من مجموعتين اجتماعيتين-ديموغرافيتين محددتين ، أو من منطقتين ، إلخ) ، ففي هذه الحالة قد يتم الإفراط في أخذ العينات من المجموعة الأصغر. بهذه الطريقة ، يتم تقليل تباين المقدر الذي يقارن بين المجموعتين.
    • في أخذ العينات العنقودية ، قد تكون هناك مجموعات ذات أحجام مختلفة ولكن عينات الإجراء من جميع المجموعات باستخدام SRS ، ويتم قياس جميع العناصر في الكتلة (على سبيل المثال ، إذا لم تكن أحجام الكتلة معروفة مقدمًا في مرحلة أخذ العينات).
    • عند استخدام أخذ العينات على مرحلتين بحيث يتم أخذ عينات المجموعات في المرحلة الأولى بشكل متناسب مع حجمها (ويعرف أيضًا باسم: احتمالية PPS المتناسبة مع الحجم) ، ولكن في المرحلة الثانية فقط عدد ثابت محدد من الوحدات (على سبيل المثال: واحدة أو اثنتين ) من كل مجموعة - قد يحدث هذا بسبب اعتبارات الراحة / الميزانية. هناك حالة مماثلة عندما تحاول المرحلة الأولى أخذ عينات باستخدام PPS ، ولكن عدد العناصر في كل وحدة غير دقيق (بحيث قد يكون لبعض المجموعات الأصغر فرصة أكبر مما يجب أن يتم اختيارها. والعكس بالعكس مجموعات أكبر مع فرصة صغيرة جدًا لأخذ عينات منها). في مثل هذه الحالات ، كلما زادت الأخطاء في إطار العينة في المرحلة الأولى - كلما زادت احتمالات الاختيار غير المتكافئة المطلوبة. [6] : 109 
    • عندما يتضمن الإطار المستخدم لأخذ العينات تكرارًا لبعض العناصر ، مما يؤدي إلى أن يكون لبعض العناصر احتمالية أكبر من غيرها لأخذ عينات منها (على سبيل المثال: إذا تم إنشاء إطار أخذ العينات من خلال دمج عدة قوائم. أو إذا تم تجنيد مستخدمين من عدة قنوات إعلانية - حيث يكون بعض المستخدمين متاحين للتوظيف من عدة قنوات ، بينما يتوفر البعض الآخر للتعيين من قناة واحدة فقط). في كل حالة من هذه الحالات - سيكون للوحدات المختلفة احتمالية مختلفة لأخذ العينات ، مما يجعل إجراء أخذ العينات هذا غير EPSEM. [11] : 3-8  [8] : 186 
    • عندما يتم الجمع بين عدة عينات / إطارات مختلفة. على سبيل المثال ، في حالة تشغيل حملات إعلانية مختلفة لتجنيد المستجيبين. أو عند الجمع بين نتائج العديد من الدراسات التي أجراها باحثون مختلفون و / أو في أوقات مختلفة (مثل: التحليل التلوي ). [8] : 188 
    عندما يحدث أخذ عينات غير متناسب ، بسبب قرارات تصميم أخذ العينات ، قد يكون الباحث (في بعض الأحيان) قادرًا على تتبع القرار وحساب احتمالية التضمين بدقة. عندما يصعب تتبع احتمالات الاختيار هذه ، يمكن تقديرها باستخدام بعض نماذج درجات الميل مع معلومات من المتغيرات المساعدة (على سبيل المثال: العمر والجنس وما إلى ذلك).
  2. عدم التغطية . [1] : 527 ، 528  يحدث هذا ، على سبيل المثال ، إذا تم أخذ عينات من الأشخاص بناءً على قائمة محددة مسبقًا لا تتضمن جميع الأشخاص في السكان (على سبيل المثال: دفتر هاتف أو استخدام الإعلانات لتجنيد الأشخاص في استطلاع ). هذه الوحدات المفقودة مفقودة بسبب بعض الفشل في إنشاء إطار أخذ العينات ، على عكس الاستبعاد المتعمد لبعض الأشخاص (على سبيل المثال: القصر ، الأشخاص الذين لا يستطيعون التصويت ، إلخ). يعتبر تأثير عدم التغطية على احتمالية أخذ العينات من الصعب قياسه (والتكيف معه) في حالات المسح المختلفة ، ما لم يتم وضع افتراضات قوية.
  3. عدم الاستجابة. يشير هذا إلى فشل الحصول على قياسات على وحدات العينة التي يُراد قياسها. تتنوع أسباب عدم الاستجابة وتعتمد على السياق. قد يكون الشخص غير متاح مؤقتًا ، على سبيل المثال إذا لم يكن متاحًا لالتقاط الهاتف عند الانتهاء من الاستبيان. قد يرفض أي شخص أيضًا الإجابة على الاستبيان لأسباب متنوعة ، على سبيل المثال: الميول المختلفة للأشخاص من مختلف المجموعات العرقية / الديموغرافية / الاجتماعية والاقتصادية للرد بشكل عام ؛ حافز غير كاف لقضاء الوقت أو مشاركة البيانات ؛ هوية المؤسسة التي تجري المسح ؛ عدم القدرة على الاستجابة (على سبيل المثال: بسبب المرض أو الأمية أو حاجز اللغة) ؛ لم يتم العثور على المستفتى (على سبيل المثال: لقد انتقلوا إلى شقة) ؛ تم فقد / إتلاف الاستجابة أثناء التشفير أو الإرسال (أي خطأ القياس).[1] : 532  [8] : 186 
  4. التعديلات الإحصائية . قد تشمل هذه طرقًا مثل نماذج ما بعد التقسيم الطبقي أو التجريف أو درجات الميل (التقدير) - المستخدمة لإجراء تعديل مخصص للعينة على بعض أحجام الطبقة المعروفة (أو المقدرة). تُستخدم مثل هذه الإجراءات للتخفيف من المشكلات في أخذ العينات التي تتراوح من خطأ أخذ العينات ، ونقص تغطية إطار أخذ العينات إلى عدم الاستجابة. [14] : 45  [15] على سبيل المثال ، إذا تم استخدام عينة عشوائية بسيطة ، فإن التقسيم الطبقي اللاحق (باستخدام بعض المعلومات المساعدة) لا يقدم مقدرًا أفضل بشكل موحد من مجرد مقدر غير مرجح. ومع ذلك ، يمكن النظر إليه على أنه مقدر "أكثر قوة". [16]وبدلاً من ذلك ، يمكن استخدام هذه الأساليب لجعل العينة أكثر تشابهًا مع بعض "الضوابط" المستهدفة (أي: المجموعة محل الاهتمام) ، وهي عملية تُعرف أيضًا باسم "التوحيد القياسي". [8] : 187  في مثل هذه الحالات ، تساعد هذه التعديلات في توفير تقديرات غير متحيزة (غالبًا مع تكلفة التباين المتزايد ، كما هو موضح في الأقسام التالية). إذا كانت العينة الأصلية عبارة عن عينة غير محتملة ، فإن تعديلات ما بعد التقسيم تكون مشابهة تمامًا لأخذ عينات مخصصة للحصص . [8] : 188 ، 189 

عندما يكون تصميم أخذ العينات معروفًا تمامًا (مما يؤدي إلى بعض احتمالية الاختيار لبعض العناصر من الطبقة ح) ، ويكون عدم الاستجابة قابلاً للقياس (أي: نعلم أن الملاحظات فقط تمت الإجابة عليها في الطبقة ح) ، ثم وزن احتمال معكوس معروف تمامًا لكل عنصر i من strata h باستخدام :. [8] : 186 في بعض الأحيان ، يتم استخدام تعديل إحصائي ، مثل التقسيم الطبقي أو التقسيم ، لتقدير احتمالية الاختيار. على سبيل المثال: عند مقارنة العينة التي لدينا مع نفس المجموعة المستهدفة ، والتي تُعرف أيضًا بالمطابقة مع عناصر التحكم. قد تركز عملية التقدير فقط على تعديل السكان الحاليين إلى مجموعة سكانية بديلة (على سبيل المثال ، إذا حاولت الاستقراء من لوحة مأخوذة من عدة مناطق إلى دولة بأكملها). في مثل هذه الحالة ، قد يركز الضبط على بعض عوامل المعايرة ويتم حساب الأوزان على هذا النحو . [8] : 187  ومع ذلك ، في حالات أخرى ، يتم نمذجة كل من نقص التغطية وعدم الاستجابة دفعة واحدة كجزء من التعديل الإحصائي ، مما يؤدي إلى تقدير احتمالية أخذ العينات الإجمالية (دعنا نقول). في مثل هذه الحالة ، تكون الأوزان ببساطة :. لاحظ أنه عند استخدام التعديلات الإحصائية ، يتم تقديرها غالبًا بناءً على بعض النماذج. تفترض الصياغة في الأقسام التالية أن هذا معروف ، وهذا ليس صحيحًا بالنسبة للتعديلات الإحصائية (بما أننا لدينا فقط ). ومع ذلك ، إذا افترضنا أن خطأ التقدير صغير جدًا ، فيمكن استخدام الأقسام التالية كما لو كانت معروفة. يعتمد جعل هذا الافتراض صحيحًا على حجم العينة المستخدمة في النمذجة ، ويستحق وضعه في الاعتبار أثناء التحليل.

عندما تكون احتمالات الاختيار مختلفة ، يكون حجم العينة عشوائيًا ، وتكون احتمالات الاختيار الزوجي مستقلة ، نسمي هذا أخذ عينات بواسون . [17]

"المعتمد على التصميم" مقابل "النموذج" لوصف خصائص المقدرات

عند التعديل لاختيار الاحتمالية غير المتكافئة من خلال "أوزان الحالة الفردية" (على سبيل المثال: ترجيح الاحتمال العكسي) ، نحصل على أنواع مختلفة من المقدرات لكميات الفائدة. المقدرون مثل مقدر Horvitz – Thompson ينتج مقدرات غير متحيزة (إذا كانت احتمالات الاختيار معروفة بالفعل ، أو معروفة تقريبًا) ، لإجمالي السكان ومتوسطهم. صاغ Deville and Särndal (1992) مصطلح " مقدر المعايرة " للمقدرات باستخدام الأوزان بحيث تلبي بعض الشروط ، مثل أن يكون مجموع الأوزان مساويًا لحجم السكان. وبشكل أكثر عمومية ، أن المجموع المرجح للأوزان يساوي كمية معينة من المتغير الإضافي: (على سبيل المثال: أن مجموع الأعمار الموزونة للمستجيبين يساوي حجم السكان في كل مجموعة عمرية).[18] [15] : 132  [19] : 1 

الطريقتان الأساسيتان للجدل حول خصائص مقدرات المعايرة هما: [15] : 133-134  [20]

  1. على أساس التوزيع العشوائي (أو على أساس تصميم العينة) - في هذه الحالات ، يتم التعامل مع جميع الأوزان ( ) وقيم نتيجة الاهتمام التي يتم قياسها في العينة على أنها معروفة. في هذا الإطار ، هناك تباين في القيم (المعروفة) للنتيجة (ص). ومع ذلك ، فإن العشوائية الوحيدة تأتي من أي من العناصر في المجتمع تم انتقاؤها في العينة (غالبًا ما يشار إليها بالحصول على 1 إذا كان العنصر في العينة و 0 إذا لم يكن كذلك). بالنسبة لعينة عشوائية بسيطة ، سيكون كل منها عبارة عن توزيع iid bernoulli مع بعض المعلمات . بالنسبة إلى EPSEM العام (أخذ عينات الاحتمالية المتساوية) ، سيظل bernoulli مع بعض المعلمات ، لكنها لن تكون كذلك المتغيرات العشوائية المستقلة . لشيء مثل التقسيم الطبقي اللاحق ، يمكن نمذجة عدد العناصر في كل طبقة كتوزيع متعدد الحدود مع احتمالات تضمين مختلفة لكل عنصر ينتمي إلى بعض الطبقات . في هذه الحالات ، يمكن أن يكون حجم العينة نفسه متغيرًا عشوائيًا.
  2. يعتمد على النموذج - في هذه الحالات تكون العينة ثابتة ، وتثبت الأوزان ، ولكن يتم التعامل مع نتيجة الفائدة كمتغير عشوائي. على سبيل المثال ، في حالة ما بعد التقسيم الطبقي ، يمكن نمذجة النتيجة على أنها دالة الانحدار الخطي حيث تكون المتغيرات المستقلة هي متغيرات مؤشر ترسم كل ملاحظة إلى طبقاتها ذات الصلة ، ويأتي المتغير مع مصطلح الخطأ.

كما سنرى لاحقًا ، تعتمد بعض البراهين في الأدبيات على الإطار القائم على التوزيع العشوائي ، بينما يركز البعض الآخر على المنظور القائم على النموذج. عند الانتقال من المتوسط ​​إلى المتوسط ​​المرجح ، تتم إضافة المزيد من التعقيد. على سبيل المثال ، في سياق منهجية المسح في كثير من الأحيان ، يعتبر حجم السكان نفسه كمية غير معروفة يتم تقديرها. لذلك في حساب المتوسط ​​المرجح يعتمد في الواقع على مقدر النسبة ، مع مقدر الإجمالي عند البسط ومقدر لحجم المجتمع في المقام (مما يجعل حساب التباين أكثر تعقيدًا). [21]

أنواع الأوزان الشائعة

هناك العديد من الأنواع (والأنواع الفرعية) من الأوزان ، مع اختلاف طرق استخدامها وتفسيرها. مع بعض الأوزان ، يكون لقيمتها المطلقة بعض المعاني المهمة ، بينما مع الأوزان الأخرى ، يكون الجزء المهم هو القيم النسبية للأوزان لبعضها البعض. يقدم هذا القسم بعض أنواع الأوزان الأكثر شيوعًا بحيث يمكن الرجوع إليها في أقسام المتابعة.

  • أوزان التردد هي نوع أساسي من الترجيح ، مقدمة في مقدمة دورات الإحصاء. مع هذه ، كل وزن هو رقم صحيح يشير إلى التكرار المطلق لعنصر في العينة. تسمى هذه أيضًا أحيانًا أوزان التكرار (أو التكرار). القيمة المحددة لها معنى مطلق يتم فقده إذا تم تحويل الأوزان (على سبيل المثال: القياس ). على سبيل المثال: إذا كان لدينا الرقمان 10 و 20 بقيم أوزان التردد 2 و 3 ، فعند "نشر" بياناتنا يكون: 10 ، 10 ، 20 ، 20 ، 20 (مع أوزان 1 لكل عنصر من هذه العناصر ). تتضمن أوزان التكرار مقدار المعلومات الواردة في مجموعة البيانات ، وبالتالي تسمح بأشياء مثل إنشاء تقدير التباين الموزون غير المتحيز باستخدامتصحيح بيسل . لاحظ أن هذه الأوزان غالبًا ما تكون متغيرات عشوائية ، نظرًا لأن العدد المحدد للعناصر التي سنراها من كل قيمة في مجموعة البيانات يكون عشوائيًا.
  • يتم ترجيح التباين العكسي عندما يتم تعيين وزن لكل عنصر يكون معكوسًا للتباين (المعروف). [22] [8] : 187  عندما يكون لجميع العناصر نفس التوقعات ، فإن استخدام مثل هذه الأوزان لحساب المتوسط ​​المرجح يكون له أقل تباين بين جميع المتوسطات الموزونة. في الصيغة الشائعة ، هذه الأوزان معروفة وليست عشوائية (يبدو أن هذا مرتبط بأوزان الموثوقية [ التعريف مطلوب ] ).
  • الأوزان المعيارية (المحدبة) هي مجموعة من الأوزان التي تشكل تركيبة محدبة . أي: كل وزن هو رقم بين 0 و 1 ، ومجموع كل الأوزان يساوي 1. أي مجموعة من الأوزان (غير السالبة) يمكن تحويلها إلى أوزان عادية بقسمة كل وزن على مجموع كل الأوزان ، مما يجعلها الأوزان المقيسة لمجموع 1.
النموذج ذو الصلة عبارة عن أوزان مقيسة لمجموع حجم العينة (ن) . مجموع هذه الأوزان (غير السالبة) لحجم العينة (n) ، ومتوسطها هو 1. أي مجموعة من الأوزان يمكن مواءمتها لحجم العينة بقسمة كل وزن على متوسط ​​جميع الأوزان. هذه الأوزان لها تفسير نسبي لطيف حيث تكون العناصر التي يزيد وزنها عن 1 أكثر "أهمية" (من حيث تأثيرها النسبي على المتوسط ​​المرجح مثلاً) ثم متوسط ​​الملاحظة ، بينما تكون الأوزان الأصغر من 1 أقل "أهمية" من متوسط ​​الملاحظة.
  • ترجيح الاحتمال العكسي هو عندما يتم إعطاء كل عنصر وزنًا (متناسبًا) مع الاحتمال العكسي لاختيار هذا العنصر. على سبيل المثال ، عن طريق استخدام. [8] : 185  باستخدام أوزان الاحتمال العكسي ، نتعلم عدد العناصر "التي يمثلها" كل عنصر في المجموعة المستهدفة. ومن ثم ، فإن مجموع هذه الأوزان يُرجع حجم السكان المستهدفين محل الاهتمام. يمكن تسوية أوزان الاحتمالية العكسية لمجموعها إلى 1 أو تسويتها لمجموع حجم العينة (n) ، وستؤدي العديد من الحسابات من الأقسام التالية إلى نفس النتائج.
عندما تكون العينة EPSEM ، فإن جميع الاحتمالات متساوية وعكس احتمالية الاختيار ينتج عنه أوزان متساوية مع بعضها البعض (جميعها متساوية ، حيث يكون حجم العينة وحجم المجتمع). تسمى هذه العينة عينة الترجيح الذاتي . [8] : 193 

هناك أيضًا طرق غير مباشرة لتطبيق التعديلات "المرجحة". على سبيل المثال ، قد يتم تكرار الحالات الحالية لإسناد الملاحظات المفقودة (على سبيل المثال: من عدم الاستجابة) ، مع تقدير التباين باستخدام طرق مثل التضمين المتعدد. التعامل التكميلي للبيانات هو إزالة (إعطاء وزن 0) لبعض الحالات. على سبيل المثال ، عند الرغبة في تقليل تأثير المجموعات المفرطة في أخذ العينات والتي تكون أقل أهمية لبعض التحليل. كلتا الحالتين متشابهتان بطبيعتهما مع ترجيح الاحتمال العكسي ، لكن التطبيق عمليًا يعطي صفوفًا أكثر / أقل من البيانات (مما يجعل الإدخال أسهل للاستخدام في بعض تطبيقات البرامج) ، بدلاً من تطبيق عمود إضافي من الأوزان. ومع ذلك ، فإن عواقب مثل هذه التطبيقات تشبه مجرد استخدام الأوزان. لذلك ، بينما في حالة إزالة الملاحظات ، يمكن معالجة البيانات بسهولة عن طريق تطبيقات البرامج الشائعة ، تتطلب حالة إضافة صفوف تعديلات خاصة لتقديرات عدم اليقين. قد يؤدي عدم القيام بذلك إلى استنتاجات خاطئة (أي: لا توجد وجبة غداء مجانيةعند استخدام التمثيل البديل للقضايا الأساسية). [8] : 189 ، 190 

مصطلح "الأوزان العشوائية" ، الذي صاغه كيش ، يستخدم للإشارة إلى الأوزان التي تتوافق مع احتمالات الاختيار غير المتكافئة ، ولكن تلك التي لا تتعلق بتوقع أو تباين العناصر المختارة. [8] : 190 ، 191 

أوزان عشوائية مع متوسط ​​النسبة المقدرة ( ) - تأثير تصميم كيش

معادلة

عند أخذ عينة غير مقيدة من العناصر ، يمكننا بعد ذلك تقسيم هذه العناصر بشكل عشوائي إلى طبقة منفصلة ، كل منها يحتوي على بعض أحجام العناصر بحيث . جميع العناصر في كل طبقة لها بعض الوزن غير السلبي (المعروف) المخصص لها ( ). يمكن الحصول على الوزن بعكس بعض احتمالية الاختيار غير المتكافئة للعناصر في كل طبقة (أي: ترجيح الاحتمال العكسي بعد شيء مثل التقسيم الطبقي اللاحق). في هذا الإعداد ، تأثير تصميم Kish ، لزيادة التباين في المتوسط ​​المرجح للعينة بسبب هذا التصميم (ينعكس في الأوزان) ، مقابل SRS من بعض متغيرات النتائج y (عندما لا يكون هناك ارتباط بين الأوزان والنتيجة ، أي: أوزان عشوائية) هو: [1] : 427  [8] : 191 (4.2) 

من خلال معالجة كل عنصر من الطبقة الخاصة به ، قامت كيش (في عام 1992) بتبسيط الصيغة المذكورة أعلاه إلى الإصدار التالي (المعروف جيدًا): [8] : 191 (4.3)  [23] : 318  [4] : ​​8 

تكون هذه النسخة من الصيغة صالحة عندما يكون لدى طبقة واحدة العديد من الملاحظات المأخوذة منها (أي: لكل منها نفس الوزن) ، أو عندما يكون هناك العديد من الطبقات فقط ، كان لكل منها ملاحظة واحدة مأخوذة منها ، لكن العديد منها لديها نفس الملاحظة احتمال الاختيار. في حين أن التفسير مختلف قليلاً ، فإن حساب السيناريوهين يكون هو نفسه.

لاحظ أن تعريف كيش لتأثير التصميم يرتبط ارتباطًا وثيقًا بمعامل التباين (يُطلق عليه أيضًا التباين النسبي أو التباين أو relvar للاختصار) للأوزان (عند استخدام الانحراف المعياري للعينة غير المصححة (مستوى السكان) للتقدير ). هذا له عدة رموز في الأدب: [8] : 191  [12] : 396 

.

أين هو تباين السكان ، وهو المتوسط. عندما يتم تطبيع الأوزان لحجم العينة (بحيث يكون مجموعها مساويًا لـ n ومتوسطها يساوي 1) ، عندئذٍ وتنخفض الصيغة إلى . بينما صحيح أننا نفترض أن الأوزان ثابتة ، يمكننا أن نفكر في تباينها على أنه تباين في التوزيع التجريبي المحدد بأخذ عينات (باحتمالية متساوية) وزنًا واحدًا من مجموعة الأوزان الخاصة بنا (على غرار الطريقة التي نفكر بها في الارتباط بين x و y في انحدار خطي بسيط ).

[دليل]

الافتراضات والبراهين

تعطي الصيغة أعلاه الزيادة في تباين المتوسط ​​المرجح استنادًا إلى أوزان "عشوائية" ، والتي تعكس متى يتم اختيار y باستخدام احتمالات اختيار غير متكافئة (مع عدم وجود ارتباط داخل المجموعة ، وعدم وجود علاقة بالتوقع أو تباين النتيجة قياس)؛ [8] : 190 و 191  و y 'هي الملاحظات التي كنا سنحصل عليها إذا حصلنا عليها من عينة عشوائية بسيطة ، ثم:

من منظور قائم على النموذج ، [24] تثبت هذه الصيغة عندما تكون جميع الملاحظات n () (على الأقل تقريبًا) غير مرتبطة ( ) ، مع نفس التباين ( ) في متغير الاستجابة محل الاهتمام (y). كما يفترض أيضًا أن الأوزان نفسها ليست متغيرًا عشوائيًا ، بل هي بالأحرى بعض الثوابت المعروفة (على سبيل المثال: معكوس احتمالية الاختيار ، لبعض تصميمات العينات المحددة مسبقًا والمعروفة ).

[دليل]

فيما يلي دليل مبسط على عدم وجود مجموعات (أي: عدم وجود ارتباط Intraclass بين عنصر العينة) وكل طبقة تتضمن ملاحظة واحدة فقط: [24]

الانتقالات:

  1. من تعريف المتوسط ​​المرجح .
  2. باستخدام تعريف الأوزان المعيارية (المحدبة) (أوزان مجموعها 1) :.
  3. مجموع المتغيرات العشوائية غير المترابطة .
  4. إذا كانت الأوزان ثوابت (من الخصائص الأساسية للتباين). طريقة أخرى للقول هي أن الأوزان معروفة مقدمًا لكل ملاحظة i. أي أننا نقوم بالحساب بالفعل
  5. عندما يكون لجميع الملاحظات نفس التباين ( ).

يتم الاحتفاظ بالشروط على y بشكل تافه إذا كانت ملاحظات y معادلة بنفس التوقع والتباين . في مثل هذه الحالة لدينا ، ويمكننا التقدير باستخدام . [8] [25] إذا لم تكن جميع قيم y لها نفس التوقعات ، فلا يمكننا استخدام التباين المقدر للحساب ، نظرًا لأن هذا التقدير يفترض أن جميعق لها نفس التوقع. على وجه التحديد ، إذا كان هناك ارتباط بين الأوزان ومتغير النتيجة y ، فهذا يعني أن توقع y ليس هو نفسه لجميع الملاحظات (بل يعتمد على قيمة الوزن المحددة لكل ملاحظة). في مثل هذه الحالة ، بينما قد تظل معادلة تأثير التصميم صحيحة (إذا تم استيفاء الشروط الأخرى) ، فإنها تتطلب مقدرًا مختلفًا لتباين المتوسط ​​المرجح. على سبيل المثال ، قد يكون من الأفضل استخدام مقدر التباين الموزون .

إذا كانت هناك تباينات مختلفة مختلفة ، فبينما يمكن أن يلتقط التباين الموزون التباين الصحيح على مستوى السكان ، فإن صيغة كيش لتأثير التصميم قد لا تكون صحيحة بعد الآن.

تحدث مشكلة مماثلة إذا كان هناك بعض بنية الارتباط في العينات (على سبيل المثال عند استخدام أخذ العينات العنقودية ).

تعاريف بديلة في الأدب

وتجدر الإشارة إلى أن بعض المصادر في الأدبيات تعطي التعريف البديل التالي لتأثير تصميم كيش ، حيث تشير إلى أنه: "تعني نسبة التباين في المسح الموزون في ظل أخذ العينات الطبقية غير المتناسبة إلى التباين تحت أخذ العينات الطبقية المتناسبة عند كل وحدة طبقية . الفروق متساوية ". [23] : 318  [12] : 396 

يمكن أن يكون هذا التعريف مضللًا بعض الشيء ، حيث يمكن تفسيره على أنه يعني أن "أخذ العينات الطبقية المتناسبة" قد تم تحقيقه من خلال أخذ العينات الطبقية ، حيث يتم اختيار عدد محدد مسبقًا من الوحدات من كل طبقة. سيؤدي هذا الاختيار إلى انخفاض التباين (مقارنة بالعينة العشوائية البسيطة ) ، لأنه يزيل بعض عدم اليقين في عدد محدد من العناصر لكل طبقة. هذا يختلف عن تعريف كيش الأصلي الذي قارن تباين التصميم بعينة عشوائية بسيطة(والتي من شأنها أن تسفر عن احتمال متناسب تقريبًا مع العينة ، ولكن ليس بالضبط - بسبب التباين في أحجام العينة في كل طبقة). يفكر Park and Lee (2006) في هذا بالقول إن "الأساس المنطقي وراء الاشتقاق أعلاه هو أن الخسارة في دقة [المتوسط ​​المرجح] بسبب الترجيح العشوائي غير المتكافئ يمكن تقريبها من خلال نسبة التباين في إطار أخذ العينات الطبقي غير المتناسب إلى ذلك في إطار أخذ العينات الطبقية المتناسبة ". [4] : 8  إلى أي مدى يختلف هذان التعريفان عن بعضهما البعض لم يرد ذكره في الأدبيات. [ بحاجة لمصدر ]في كتابه من عام 1977 ، يقدم كوكران صيغة للزيادة النسبية في التباين بسبب الانحراف عن التخصيص الأمثل (ما ، صيغ كيش ، سيطلق عليها L ). [2] : 116  ومع ذلك ، فإن العلاقة من تلك الصيغة إلى كيش L غير واضحة. [ بحاجة لمصدر ]

اصطلاحات التسمية البديلة

ستستخدم الأوراق السابقة هذا المصطلح . [8] : 192  مع ظهور المزيد من التعريفات لتأثير التصميم ، تم الإشارة إلى تأثير تصميم Kish لاحتمالات الاختيار غير المتكافئة (أو ) أو لمجرد اختصار. [4] : 8  [12] : 396  [23] : 318  يُعرف تأثير تصميم كيش أيضًا باسم "تأثير الترجيح غير المتكافئ" (أو UWE فقط) ، الذي أطلق عليه Liu et al. في عام 2002. [26] : 2124 

عندما ترتبط النتيجة باحتمالات الاختيار

Deff سبنسر لإجمالي تقديري ( )

مقدر المجموع هو مقدر "p-توسيع مع استبدال" (الملقب: pwr-مقدر أو Hansen و Hurwitz ). يعتمد على عينة عشوائية بسيطة (مع الاستبدال ، يُشار إليها SIR ) لعناصر m ( ) من مجموعة من الحجم M. لكل عنصر احتمال (k من 1 إلى N) ليتم رسمه في سحب واحد ( ، أي : إنه توزيع متعدد الحدود ). احتمال ظهور عنصر معين في عينتنا هو . قيمة "p-expand مع الاستبدال" هي مع التوقعات التالية :. ومن ثم ، فإن مقدر pwr هو مقدر غير متحيز لمجموع y. [2]: 51 

في عام 2000 ، اقترح Bruce D. Spencer صيغة لتقدير تأثير التصميم للتباين في تقدير الإجمالي ( وليس المتوسط) لبعض الكمية ( ) ، عندما يكون هناك ارتباط بين احتمالات اختيار العناصر ومتغير النتيجة محل الاهتمام . [27]

في هذا الإعداد ، يتم سحب عينة من الحجم n ( مع الاستبدال) من مجموعة بحجم N. يتم رسم كل عنصر مع الاحتمال (حيث ، على سبيل المثال: التوزيع متعدد الحدود ). تُستخدم احتمالات الاختيار لتحديد الأوزان المعيارية (المحدبة) :. لاحظ أنه بالنسبة لبعض المجموعات العشوائية من العناصر n ، فإن مجموع الأوزان سيكون مساويًا لـ 1 فقط من خلال توقع ( ) مع بعض التباين في المجموع حوله (على سبيل المثال: مجموع العناصر من توزيع بواسون ذي الحدين ). يتم تحديد العلاقة بين الانحدار الخطي البسيط (المجتمع) التالي (المجتمع) :

أين هي نتيجة العنصر i ، الذي يعتمد خطيًا على التقاطع والميل . المتبقي من الخط المجهز هو . يمكننا أيضًا تحديد تباينات السكان للنتيجة والمتبقيات على أنها و . العلاقة بين و .

تأثير تصميم سبنسر (التقريبي) ، لتقدير إجمالي y ، هو: [27] : 138  [28] : 4  [12] : 401 

أين:

  • التقديرات
  • يقدر المنحدر
  • يقدر التباين السكاني ، و
  • L هو التباين النسبي للأوزان ، كما هو محدد في صيغة كيش :.

يفترض هذا أن نموذج الانحدار يتلاءم جيدًا بحيث يكون احتمال الاختيار والمتبقي مستقلين ، لأنه يؤدي إلى عدم ارتباط البقايا والمربع المتبقي بالأوزان. أي: هذا وأيضًا . [27] : 138 

عندما يكون حجم السكان (N) كبيرًا جدًا ، يمكن كتابة الصيغة على النحو التالي: [23] : 319 

(منذ ذلك الحين ، أين )

يفترض هذا التقريب أن العلاقة الخطية بين P و y ثابتة. وأيضًا أن ارتباط الأوزان بالأخطاء ، ومربع الأخطاء ، كلاهما صفر. أي: و . [28] : 4 

نلاحظ أنه إذا ، إذن (أي: متوسط ​​ص ). في مثل هذه الحالة ، تقلل الصيغة إلى

فقط إذا كان تباين y أكبر بكثير من متوسطه ، فإن المصطلح الأكثر يمينًا يكون قريبًا من 0 (على سبيل المثال:) ، مما يقلل من تأثير تصميم سبنسر (للإجمالي المقدر) ليكون مساويًا لتأثير تصميم كيش (بالنسبة للنسبة تعني ): [28] : 5  . وبخلاف ذلك ، ستؤدي الصيغتان إلى نتائج مختلفة ، مما يوضح الفرق بين تأثير تصميم الإجمالي مقابل تأثير المتوسط.

Park and Lee's Deff من أجل متوسط ​​النسبة المقدرة ( )

في عام 2001 ، وسع بارك ولي معادلة سبنسر إلى حالة متوسط ​​النسبة (أي: تقدير المتوسط ​​بقسمة مقدر الإجمالي على مقدر حجم السكان). وهي: [28] : 4 

أين:

  • هو المعامل (المقدر) لتغير احتمالات الاختيار.

صيغة Park and Lee تساوي تمامًا معادلة كيش متى . كلتا الصيغتين تتعلقان بتأثير التصميم لمتوسط ​​y ( بينما يرتبط Spencer Deff بتقدير الإجمالي).

بشكل عام ، تميل Deff لإجمالي ( ) إلى أن تكون أقل كفاءة من Deff لمتوسط ​​النسبة ( ) عندما تكون صغيرة. وبشكل عام ، تؤثر على كفاءة كل من تأثيرات التصميم. [4] : 8 

أخذ العينات العنقودية

بالنسبة للبيانات التي تم جمعها باستخدام أخذ العينات العنقودية ، نفترض الهيكل التالي:

  • الملاحظات في كل عنقود ومجموعات K ، ومع إجمالي الملاحظات.
  • تحتوي الملاحظات على مصفوفة ارتباط الكتلة حيث يرتبط كل زوج من الملاحظات من نفس المجموعة بعلاقة داخل الطبقة ، في حين أن كل زوج من مجموعات الاختلاف غير مرتبط. [29] أي ، لكل زوج من الملاحظات ، وإذا كانا ينتميان إلى نفس المجموعة ، فإننا نحصل عليها . ولا يوجد ارتباط بين عنصرين من مجموعتين مختلفتين ، أي :.
  • يُفترض أن عنصر من أي مجموعة له نفس التباين :.

عندما تكون المجموعات بنفس الحجم ، فإن تأثير التصميم D eff ، الذي اقترحه Kish في عام 1965 (والذي تمت إعادة زيارته لاحقًا من قبل الآخرين) ، يتم إعطاؤه بواسطة: [1] : 162  [12] : 399  [4] : ​​9  [ 30] [31] [13] : 241 

يُشار إليه أحيانًا باسم . [26] : 2124 

في الأوراق المختلفة ، عندما لا تكون أحجام المجموعات متساوية ، يتم استخدام الصيغة المذكورة أعلاه أيضًا كمتوسط ​​حجم الكتلة (يشار إليها أحيانًا باسم ). [32] [24] : 105  في مثل هذه الحالات ، تعمل معادلة كيش (باستخدام متوسط ​​وزن الكتلة) كمحافظة (الحد الأعلى) لتأثير التصميم الدقيق. [24] : 106 

توجد صيغ بديلة لأحجام الكتلة غير المتكافئة. [1] : 193  عمل متابعة ناقش حساسية استخدام متوسط ​​حجم العنقود بافتراضات مختلفة. [33]

احتمالات الاختيار غير المتكافئة أخذ العينات العنقودية

في ورقته البحثية من عام 1987 ، اقترح كيش تأثير تصميم مشترك يتضمن كلاً من التأثيرات الناتجة عن الترجيح الذي يراعي احتمالات الاختيار غير المتكافئة بالإضافة إلى أخذ العينات العنقودية: [32] [24] : 105  [34] : 4  [28] : 2 

مع تدوينات مشابهة لما سبق.

تلقت هذه الصيغة تبريرًا قائمًا على النموذج ، تم اقتراحه في عام 1999 من قبل Gabler et al. [24]

أخذ العينات الطبقية احتمالات الاختيار غير المتكافئة أخذ العينات العنقودية

في عام 2000 ، اقترح ليو وأراجون تحليل تأثير تصميم احتمالات الاختيار غير المتكافئ لطبقات مختلفة في أخذ العينات الطبقية. [35] في عام 2002 ، قام Liu et al. يمتد هذا العمل إلى حساب العينة الطبقية حيث كان داخل كل طبقة مجموعة من أوزان احتمالية الاختيار غير المتكافئة. أخذ العينات العنقودية هو إما عالمي أو لكل طبقة. [26] قام بارك وآخرون بعمل مماثل. في عام 2003. [36]

الاستخدامات

يستخدم Deff بشكل أساسي لعدة أغراض: [13] : 85 

  • عند تطوير التصميم - لتقييم كفاءته. أي: إذا كانت هناك زيادة محتملة "كبيرة جدًا" في التباين بسبب قرار ما ، أو إذا كان التصميم الجديد أكثر كفاءة (على سبيل المثال: كما هو الحال في أخذ العينات الطبقية).
  • كطريقة لتوجيه حجم العينة (بشكل عام ، لكل طبقة ، لكل عنقود ، إلخ) ، وأيضًا
  • عند تقييم المشكلات المحتملة باستخدام تحليل الترجيح اللاحق (على سبيل المثال: من تعديلات عدم الاستجابة). [6] لا توجد قاعدة عامة عامة تكون فيها قيمة تأثير التصميم "عالية جدًا" ، لكن الأدبيات تشير إلى أنه من المحتمل أن يؤدي إلى بعض الاهتمام. [12] : 396 

في ورقته البحثية عام 1995 ، اقترح كيش التصنيف التالي عندما يكون Deff مفيدًا وغير مفيد: [7] : 57-62 

  • لا يكون تأثير التصميم ضروريًا عندما: يكون مجتمع المصدر متقاربًا ، أو عندما يتم رسم تصميم عينة البيانات كعينة عشوائية بسيطة . كما أنه أقل فائدة عندما يكون حجم العينة صغيرًا نسبيًا (جزئيًا على الأقل لأسباب عملية). وأيضًا إذا كانت الإحصائيات الوصفية هي المهمة فقط (أي: تقدير النقاط ). يُقترح أيضًا أنه إذا كانت هناك حاجة إلى أخطاء قياسية لعدد قليل من الإحصائيات ، فقد يكون من الجيد تجاهل Deff.
  • يكون تأثير التصميم ضروريًا عندما: حساب متوسط ​​أخطاء أخذ العينات لمتغيرات مختلفة تم قياسها في نفس المسح. أو عند حساب متوسط ​​نفس الكمية المقاسة من عدة استطلاعات خلال فترة زمنية. أو عند الاستقراء من خطأ الإحصائيات البسيطة (على سبيل المثال: المتوسط) إلى أخطاء أكثر تعقيدًا (على سبيل المثال: معاملات الانحدار). عند تصميم مسح مستقبلي (ولكن بحذر مناسب). كإحصاء مساعد لتحديد المشكلات الصارخة في البيانات أو تحليلها (على سبيل المثال: تتراوح من الأخطاء إلى وجود القيم المتطرفة ). [8] : 191 

عند التخطيط لحجم العينة ، تم العمل على تصحيح تأثير التصميم وذلك لفصل تأثير القائم بالمقابلة (خطأ القياس) عن تأثيرات تصميم العينة على تباين العينة. [37]

بينما كان كيش يأمل في الأصل أن يكون تأثير التصميم قادرًا على أن يكون محايدًا قدر الإمكان للتوزيع الأساسي للبيانات ، واحتمالات أخذ العينات ، وارتباطاتها ، والإحصاءات ذات الأهمية - أظهرت أبحاث المتابعة أن هذه تؤثر على تأثير التصميم. ومن ثم ، يجب مراعاة هذه الخصائص بعناية عند تحديد حساب Deff المراد استخدامه وكيفية استخدامه. [4] : 13  [28] : 6 

تطبيقات البرمجيات

يتم تنفيذ تأثير تصميم كيش في برامج إحصائية مختلفة:

  • R: ملخص استقصائي من حزمة المسح.
  • بايثون: design_effect من حزمة التوازن.

تاريخ

تم تقديم مصطلح "تأثير التصميم" بواسطة ليزلي كيش في عام 1965 في كتابه "أخذ عينات المسح". [1] : 88 ، 258  في ورقته البحثية من عام 1995 ، [7] : 73  يذكر كيش أن مفهومًا مشابهًا ، يسمى "نسبة Lexis" ، تم وصفه في نهاية القرن التاسع عشر. تم وصف ارتباط Intraclass وثيق الصلة من قبل فيشر في عام 1950 ، في حين تم نشر حسابات نسب التباينات بالفعل من قبل كيش وآخرون من أواخر الأربعينيات إلى الخمسينيات من القرن الماضي. كان العمل الذي قام به كورنفيلد في عام 1951. [38] [4] واحدًا من بوادر تعريف كيش.

في كتابه الأصلي من عام 1965 ، اقترح كيش التعريف العام لتأثير التصميم (نسبة تباينات اثنين من المقدرين ، أحدهما من عينة مع بعض التصميم والآخر من عينة عشوائية بسيطة). في كتابه ، اقترح كيش صيغة لتأثير التصميم لأخذ العينات العنقودية (مع الارتباط داخل الصف) ؛ [1] : 162  بالإضافة إلى صيغة تأثير التصميم الشهيرة لأخذ العينات الاحتمالية غير المتكافئة. [1] : 427  تُعرف هذه غالبًا باسم "تأثير تصميم كيش" ، وقد تم دمجها لاحقًا في صيغة واحدة.

أنظر أيضا

مراجع

  1. ^ abcdefghijklmnop كيش ، ليزلي (1965). أخذ عينات المسح . نيويورك: John Wiley & Sons، Inc. ISBN 0-471-10949-5.
  2. ^ abcde Carl-Erik Sarndal ، Bengt Swensson ، Jan Wretman (1992). أخذ عينات المسح بمساعدة النموذج . رقم ISBN 9780387975283.{{cite book}}: صيانة CS1: يستخدم معلمة المؤلفين ( رابط )
  3. ^ هيو ، مونسونغ. كيم ، يونغمان ؛ شيويه ، زياونان ؛ كيم ، ميمي واي (2010). "متطلبات حجم العينة لاكتشاف تأثير التدخل في نهاية المتابعة في تجربة معشاة عنقودية طولية". الإحصاء في الطب . 29 (3): 382-390. دوى : 10.1002 / sim.3806. PMID  20014353. S2CID  30001378. مؤرشفة من الأصلي في 5 يناير 2013.
  4. ^ abcdefghijk Park و Inho و Hyunshik Lee. "تأثيرات التصميم للمتوسط ​​المرجح والمقدرات الإجمالية في ظل أخذ عينات مسح معقد." مراقبة الجودة والإحصاءات التطبيقية 51.4 (2006): 381-384 (بناءً على الباحث العلمي من Google). المجلد. 30 ، ع 2 ، ص 183 - 193. Statistics Canada، Catalog No. 12-001. منهجية المسح كانون الأول (ديسمبر) 2004 (بناءً على ملف PDF) (pdf)
  5. ^ Everitt ، BS (2002) قاموس كامبردج للإحصاء ، الطبعة الثانية. كوب. ردمك 0-521-81099-X 
  6. ^ أي بي سي كالتون ، جي ، جي إم بريك ، وتي لي. "تقدير مكونات تأثيرات التصميم لاستخدامها في تصميم العينة. في مسوح العينة الأسرية في البلدان النامية والبلدان التي تمر بمرحلة انتقالية ، (رقم المبيع E. 05. XVII.6). إدارة الشؤون الاقتصادية والاجتماعية." شعبة الإحصاء ، الأمم المتحدة ، نيويورك (2005). (بي دي إف)
  7. ^ abcde كيش ، ليزلي. "طرق لتأثيرات التصميم". مجلة الإحصاءات الرسمية 11.1 (1995): 55 (pdf)
  8. ^ abcdefghijklmnopqrstu كيش ، ليزلي ، وجيه. "ترجيح ل Pi غير المتكافئ." (1992): 183-200. (رابط pdf)
  9. ^ توم لينستر (18 ديسمبر 2014). "حجم العينة الفعال".
  10. ^ "تأثيرات التصميم وحجم العينة الفعال".
  11. ^ أ ب المصدر: Frerichs، RR Rapid Surveys (غير منشورة) ، © 2004. N ، الفصل 4 - احتمالية متساوية للاختيار (pdf)
  12. ^ abcdefg Valliant و Richard و Jill A.Dever و Frauke Kreuter. أدوات عملية لتصميم ووزن عينات المسح. نيويورك: سبرينغر ، 2013.
  13. ^ أي بي سي كوكران ، دبليو جي (1977). تقنيات أخذ العينات (الطبعة الثالثة). ناشفيل ، تينيسي: جون وايلي وأولاده. ردمك 978-0-471-16240-7 
  14. ^ ديفر وجيل أ وريتشارد فاليانت. "مقارنة بين تقديرات التباين لما بعد التقسيم الطبقي إلى إجماليات التحكم المقدرة." منهجية المسح 36.1 (2010): 45-56. (بي دي إف)
  15. ^ abc Kott، Phillip S. "استخدام ترجيح المعايرة لضبط عدم الاستجابة وأخطاء التغطية." منهجية المسح 32.2 (2006): 133. (pdf)
  16. ^ هولت وديفيد وتي إم فريد سميث. "بعد التقسيم الطبقي." مجلة الجمعية الإحصائية الملكية ، السلسلة أ (عامة) 142.1 (1979): 33-46. (بي دي إف)
  17. ^ غوش وديرين وأندرو فوغت. "طرق أخذ العينات المتعلقة بأخذ عينات برنولي وبواسون." وقائع الاجتماعات الإحصائية المشتركة. جمعية الإحصاء الأمريكية بالإسكندرية ، فيرجينيا ، 2002. (pdf)
  18. ^ ديفيل وجان كلود وكارل إريك سارندال. "مقدرات المعايرة في أخذ عينات المسح". مجلة جمعية الإحصاء الأمريكية 87.418 (1992): 376-382.
  19. ^ بريك ، جي مايكل ، جيل مونتاكويلا وشيلي روث. "تحديد المشاكل مع جمع المقدرات." الاجتماع السنوي للجمعية الأمريكية للإحصاء ، سان فرانسيسكو ، كاليفورنيا. 2003. (pdf)
  20. ^ Keiding و Niels و David Clayton. "التوحيد والرقابة للارتباك في الدراسات القائمة على الملاحظة: منظور تاريخي." العلوم الإحصائية (2014): 529-558. (بي دي إف)
  21. ^ توماس لوملي (https://stats.stackexchange.com/users/249135/thomas-lumley) ، كيفية تقدير التباين (التقريبي) للمتوسط ​​المرجح ؟، URL (الإصدار: 2021-05-25): رابط
  22. ^ كالتون ، جراهام. "التوحيد القياسي: أسلوب للتحكم في المتغيرات الخارجية." مجلة الجمعية الإحصائية الملكية ، السلسلة ج (الإحصاء التطبيقي) 17.2 (1968): 118-136.
  23. ^ هنري وكيمبرلي أ وريتشارد فاليانت. "مقياس تأثير التصميم لوزن المعايرة في عينات أحادية المرحلة." منهجية المسح 41.2 (2015): 315-331. (بي دي إف)
  24. ^ abcdef Gabler و Siegfried و Sabine Häder و Partha Lahiri. "تبرير نموذجي لصيغة كيش لتأثيرات التصميم من أجل الترجيح والتكتل." منهجية المسح 25 (1999): 105-106. (بي دي إف)
  25. ^ ليتل ، رودريك ج. ، وسونيا فارتيفاريان. "هل ترجيح عدم الاستجابة يزيد من تباين وسائل المسح ؟. منهجية المسح 31.2 (2005): 161. رابط pdf
  26. ^ إي بي سي ليو وجون وفينس إاناتشيوني ومارجي بايرون. "تحليل تأثيرات التصميم لأخذ العينات الطبقية." وقائع قسم طرق البحث المسحي ، جمعية الإحصاء الأمريكية. 2002 (pdf)
  27. ^ سبنسر ، بروس د. "تأثير تصميم تقريبي للوزن غير المتكافئ عندما قد ترتبط القياسات باحتمالات الاختيار." منهجية المسح 26 (2000): 137-138. (بي دي إف)
  28. ^ ABCDEF Park و Inho و Hyunshik Lee. "تأثير التصميم: هل نعرف كل شيء عنه." وقائع الاجتماع السنوي لجمعية الإحصاء الأمريكية. 2001 (pdf)
  29. ^ الكسندر ك.رو. مارسيل لاما فوستين أونيكبو مايكل س. ديمينغ (2002). "تأثيرات التصميم ومعاملات الارتباط داخل الطبقة من مسح مجموعة المرافق الصحية في بنين". المجلة الدولية للجودة في الرعاية الصحية . 14 (6): 521-523. دوى : 10.1093 / intqhc / 14.6.521.003 . بميد  12515339.
  30. ^ بلاند ، إم (2005) ، "التجارب العشوائية العنقودية في الأدبيات الطبية" ، ملاحظات للمحادثات ، جامعة يورك
  31. ^ الطرق في استطلاعات العينة (الصفحات 5-6)
  32. ^ أب كيش ، إل (1987). ترجيح في . الإحصائي الاستقصائي ، يونيو 1987. (لا يبدو أن هذه الورقة متاحة على الإنترنت ، ولكنها مراجع في عدة أماكن كمصدر أصلي لهذه الصيغة)
  33. ^ لين وبيتر وسيجفريد جابلر. التقديرات التقريبية لـ b * في توقع تأثيرات التصميم بسبب التجميع. رقم 2004-07. سلسلة أوراق عمل ISER ، 2004. (pdf)
  34. ^ جابلر وسيغفريد وسابين هدير وبيتر لين. تأثيرات التصميم لعينات تصميم متعددة. رقم 2005-12. سلسلة أوراق عمل ISER ، 2005. (pdf)
  35. ^ ليو ، ج ، وإي أراغون. "استراتيجيات أخذ العينات الفرعية في المسوحات الطولية." وقائع قسم طرق البحث المسحي ، الجمعية الأمريكية للإحصاء. 2000. (pdf)
  36. ^ بارك ، إينو (2003). "تأثيرات التصميم وتخطيط المسح" (PDF) .
  37. ^ زين وستيفان وجان بابلو بورغارد. "النظر في تأثيرات المحاور والتصميم عند التخطيط لأحجام العينات." منهجية المسح 46.1 (2020): 93-119. (ورق - html)
  38. ^ كوكران ، وليام ج. "الأساليب الحديثة في أخذ عينات من البشر." المجلة الأمريكية للصحة العامة وصحة الأمة 41.6 (1951): 647-668.

قراءة متعمقة

  • تأثير تعديلات الترجيح النموذجية للمسح على تأثير التصميم: دراسة حالة