Sturges Rule: الشرح والتطبيقات والأمثلة

قاعدة Sturges هي معيار يستخدم لتحديد عدد الفئات أو الفترات اللازمة لتمثيل مجموعة من البيانات الإحصائية بيانياً. أعلن هذه القاعدة في عام 1926 من قبل عالم الرياضيات الألماني هربرت ستورجس.

اقترح ستورجس طريقة بسيطة ، بناءً على عدد العينات x التي سمحت بإيجاد عدد الفئات وسعة مداها. تستخدم قاعدة Sturges على نطاق واسع وخاصة في مجال الإحصاء ، وتحديدا لبناء رسم بياني تردد.

تفسير

قاعدة Sturges هي طريقة تجريبية تستخدم على نطاق واسع في الإحصاءات الوصفية لتحديد عدد الفئات التي يجب أن توجد في رسم بياني تردد ، من أجل تصنيف مجموعة من البيانات التي تمثل عينة أو السكان.

في الأساس ، تحدد هذه القاعدة عرض حاويات الرسوم ، ورسوم بيانية التردد.

لوضع حكمه ، اعتبر هربرت ستورجس مخططًا مثاليًا للتردد ، والذي يتكون من فواصل زمنية K ، حيث يحتوي الفاصل إيث على عدد معين من العينات (ط = 0 ، ... ك - 1) ، ممثلة كـ:

يتم إعطاء هذا العدد من العينات بعدد الطرق التي يمكن بها استخراج مجموعة فرعية من مجموعة ؛ وهذا هو ، بالمعامل ذي الحدين ، معبراً عنه على النحو التالي:

لتبسيط التعبير ، قام بتطبيق خصائص اللوغاريتمات في كلا طرفي المعادلة:

وهكذا ، أثبت Sturges أن العدد الأمثل من الفواصل k يعطى بواسطة التعبير:

يمكن التعبير عنها أيضًا على النحو التالي:

في هذا التعبير:

- ك هو عدد الفصول.

- N هو العدد الإجمالي للرصدات في العينة.

- سجل هو قاعدة مشتركة 10 لوغاريتم.

على سبيل المثال ، لعمل رسم بياني للتردد يعبر عن عينة عشوائية بارتفاع 142 طفلاً ، يكون عدد الفواصل الزمنية أو الفصول التي سيتم توزيعها:

ك = 1 + 322 * سجل 10 (N)

ك = 1 + 322 * سجل (142)

ك = 1 + 322 * 2،1523

ك = 8.14 ≈ 8

وبالتالي ، فإن التوزيع سيكون في 8 فترات.

يجب دائمًا تمثيل عدد الفواصل الزمنية بالأعداد الصحيحة. في الحالات التي تكون فيها القيمة عشرية ، يجب إجراء تقريب إلى أقرب عدد صحيح.

تطبيقات

يتم تطبيق قاعدة Sturges بشكل أساسي في الإحصائيات ، لأنها تتيح إجراء توزيع تردد من خلال حساب عدد الفئات (k) ، وكذلك طول كل فئة من هذه الفئات ، والمعروفة أيضًا باسم الاتساع.

السعة هي اختلاف الحد العلوي والسفلي للفئة ، مقسومًا على عدد الفئات ، ويتم التعبير عنها:

هناك العديد من القواعد التجريبية التي تسمح بتوزيع الترددات. ومع ذلك ، يتم استخدام قاعدة Sturges بشكل شائع لأنها تقارب عدد الفئات ، والتي تتراوح عادة من 5 إلى 15.

وبهذه الطريقة ، ضع في اعتبارك قيمة تمثل عينة أو مجموعة سكانية ؛ أي أن التقريب لا يمثل تجمعات متطرفة ، كما أنه لا يعمل مع عدد كبير من الفئات التي لا تسمح بتلخيص العينة.

مثال

من الضروري إجراء رسم بياني للتردد وفقًا للبيانات المقدمة ، والتي تتوافق مع الأعمار التي تم الحصول عليها في استطلاع للرأي الرجال الذين يقومون بتمارين رياضية في صالة رياضية محلية.

لتحديد الفواصل الزمنية ، يجب أن تعرف حجم العينة أو عدد المشاهدات ؛ في هذه الحالة ، لديك 30.

ثم تطبق قاعدة Sturges:

ك = 1 + 322 * سجل 10 (N)

ك = 1 + 322 * سجل (30)

ك = 1 + 322 * 1،4771

ك = 5.90 ≈ 6 فواصل زمنية.

من عدد الفواصل الزمنية ، يمكن حساب السعة التي ستحصل عليها ؛ أي عرض كل شريط ممثلاً في المدرج التكراري:

يعتبر الحد الأدنى هو أدنى قيمة للبيانات ، والحد الأعلى هو أعلى قيمة. يُسمى الفرق بين الحد العلوي والسفلي نطاق أو مسار المتغير (R).

من الجدول لدينا الحد الأقصى هو 46 والحد الأدنى 13 ؛ بهذه الطريقة ، ستكون سعة كل فئة:

ستتكون الفواصل الزمنية من الحد العلوي والسفلي. لتحديد هذه الفواصل الزمنية ، ابدأ في العد من الحد الأدنى ، مضيفًا إليه السعة المحددة بموجب القاعدة (6) ، على النحو التالي:

ثم يتم حساب التردد المطلق لتحديد عدد الرجال المطابقين لكل فترة. في هذه الحالة هو:

- الفاصل الزمني 1: 13 - 18 = 9

- الفاصل 2: ​​19 - 24 = 9

- الفاصل الزمني 3: 25 - 30 = 5

- الفاصل الزمني 4: 31 - 36 = 2

- الفاصل الزمني 5: 37 - 42 = 2

- الفاصل 6: 43 - 48 = 3

عند إضافة التردد المطلق لكل فئة ، يجب أن يكون مساوياً لإجمالي عدد العينة ؛ في هذه الحالة ، 30.

بعد ذلك ، يتم حساب التردد النسبي لكل فاصل ، بحيث يتم تقسيم التردد المطلق لهذا الفاصل على إجمالي عدد المشاهدات:

- الفاصل الزمني 1: فاي = 9 ÷ 30 = 0.30

- الفاصل 2: ​​فاي = 9 ÷ 30 = 0.30

- الفاصل 3: فاي = 5 ÷ 30 = 0.1666

- الفاصل الزمني 4: فاي = 2 ÷ 30 = 0.0666

- الفاصل الزمني 5: فاي = 2 ÷ 30 = 0.0666

- الفاصل 4: فاي = 3 ÷ 30 = 0.10

بعد ذلك ، يمكنك إنشاء جدول يعكس البيانات وأيضًا الرسم البياني من التردد النسبي بالنسبة إلى الفواصل الزمنية التي تم الحصول عليها ، كما هو موضح في الصور التالية:

بهذه الطريقة ، تسمح قاعدة Sturges بتحديد عدد الفئات أو الفواصل الزمنية التي يمكن فيها تقسيم العينة ، من أجل تلخيص عينة من البيانات من خلال إعداد الجداول والرسوم البيانية.