Varians tergembleng

Daripada Wikipedia, ensiklopedia bebas.
Lompat ke: pandu arah, cari

Dalam statistik, kebanyakan masa, data dikumpul bagi variabel terikat, y, melangkau julat nilai bagi variabel bebas, x. Sebagai contoh, pemantauan penggunaan bahan api boleh dikaji sebagai fungsi kelajuan enjin ketika bebanan engin dikekalkan. Jika, untuk mencapai perbezaan kecil pada y, sejumlah besar ujian ulangan diperlukan bagi setiap nilai x, kos menguji menjadi amat mahal. Sebaliknya, anggaran varians yang munasabah boleh ditentukan dengan menggunakan prinsip varians tergembleng[1] selepas mengulangi setiap ujian pada x tertentu hanya beberapa kali. Varians yang dikumpulkan adalah satu kaedah untuk menganggarkan varians, dengan hanya menggunakan beberapa sampel yang diambil dalam keadaan yang berbeza di mana min kemungkinannya berbeza-beza antara sampel tetapi varians yang benar (setara, kejituan) diandaikan tetap sama. Ia dikira melalui

s_p^2=\frac{\sum_{i=1}^k((n_i - 1)s_i^2)}{\sum_{i=1}^k(n_i - 1)}

atau dengan notasi lebih mudah,

s_p^2=\frac{(n_1 - 1)s_1^2+(n_2 - 1)s_2^2+\cdots+(n_k - 1)s_k^2}{n_1+n_2+\cdots+n_k - k}

di mana sp2 merupakan varians tergembleng, ni adalah saiz contoh bagi i, si2 merupakan varians bagi contoh i, dan k merupakan bilangan contoh yang digabungkan. n − 1 digunakan bagi menggantikan n sebagai sebab ia mungkin digunakan bagi menganggar variasi berbanding contoh (contoh. pembetulan Bessel).

Punca kuasa dua bagi penganggar varians tergembleng dikenali sebagai "Sisihan piawai terkumpul ‎".

Anggaran segi empat terkecil bebas vs. anggaran kemungkinan maksima berat sebelah[sunting | sunting sumber]

Kedua-dua

s_p^2=\frac{\sum_{i=1}^k((n_i - 1)s_i^2)}{\sum_{i=1}^k(n_i - 1)}

dan

s_p^2=\frac{\sum_{i=1}^k((n_i - 1)s_i^2)}{\sum_{i=1}^k n_i }

digunakan dalam konteks yang berbeza. Yang sebelumnya boleh memberikan s_p^2 yang adil bagi menganggar \sigma^2 apabila kedua-dua kumpulan berkongsi varians populasi yang sama. Yang terakhir boleh memberi anggaran lebih cekap untuk s_p^2 bagi menganggar \sigma^2 berat sebelah. Perhatikan bahawa kuantiti s_i^2 pada sebelah kanan kedua persamaan merupakan anggaran adil.

Contoh[sunting | sunting sumber]

Pertimbangkan set data untuk y, yang diperoleh di pelbagai peringkat pembolehubah bebas x berikut.


x y
1 31, 30, 29
2 42, 41, 40, 39
3 31, 28
4 23, 22, 21, 19, 18
5 21, 20, 19, 18,17

Bilangan ujian, min, varians dan Sisihan piawai dibentangkan dalam jadual berikut.

x n ymean Sy2 S
1 3 30.0 1.0 1.0
2 4 40.5 1.67 1.29
3 2 29.5 4.5 2.12
4 5 20.6 4.3 2.07
5 5 19.0 2.5 1.58

Statistik ini mewakili varians dan sisihan piawai untuk setiap subset data di pelbagai peringkat x. Jika kita boleh mengandaikan bahawa fenomena yang sama menjana ralat rawak di setiap peringkat x, data di atas boleh "dikumpulkan" untuk menyatakan anggaran tunggal varians dan sisihan piawai. Dari satu segi, ini menunjukkan mencari min varians atau sisihan piawai di kalangan lima keputusan di atas. Varians min ini dikira dengan pemberat nilai individu dengan saiz subset bagi setiap tahap x. Oleh itu, varians dikumpulkan ditakrifkan oleh

S_P^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2 + \cdots + (n_k - 1)S_k^2}{(n_1 - 1) + (n_2 - 1) + \cdots +(n_k - 1)}

di mana n1, n2, . . . nk merupakan saiz subset data pada setiap peringkat pelbagai x, and S12, S22, . . ., Sk2 adalah perbezaan masing-masing.

di mana n 1, n 2,. . N k adalah saiz subset data di peringkat setiap x berubah-ubah, dan S 1 2, S 2 2,. . , S k 2 adalah perbezaan masing-masing.

Varians tergembleng data yang ditunjukkan di atas adalah:

S_P^2 = 2.765 \,

Rujukan[sunting | sunting sumber]

Pautan luaran[sunting | sunting sumber]