Varians tergembleng

Daripada Wikipedia, ensiklopedia bebas.
(Dilencongkan dari Sisihan piawai terkumpul)

Dalam statistik, kebanyakan masa, data dikumpul bagi variabel terikat, y, melangkau julat nilai bagi variabel bebas, x. Sebagai contoh, pemantauan penggunaan bahan api boleh dikaji sebagai fungsi kelajuan enjin ketika bebanan engin dikekalkan. Jika, untuk mencapai perbezaan kecil pada y, sejumlah besar ujian ulangan diperlukan bagi setiap nilai x, kos menguji menjadi amat mahal. Sebaliknya, anggaran varians yang munasabah boleh ditentukan dengan menggunakan prinsip varians tergembleng[1] selepas mengulangi setiap ujian pada x tertentu hanya beberapa kali. Varians yang dikumpulkan adalah satu kaedah untuk menganggarkan varians, dengan hanya menggunakan beberapa sampel yang diambil dalam keadaan yang berbeza di mana min kemungkinannya berbeza-beza antara sampel tetapi varians yang benar (setara, kejituan) diandaikan tetap sama. Ia dikira melalui

atau dengan notasi lebih mudah,

di mana sp2 merupakan varians tergembleng, ni adalah saiz contoh bagi i, si2 merupakan varians bagi contoh i, dan k merupakan bilangan contoh yang digabungkan. n − 1 digunakan bagi menggantikan n sebagai sebab ia mungkin digunakan bagi menganggar variasi berbanding contoh (contoh. pembetulan Bessel).

Punca kuasa dua bagi penganggar varians tergembleng dikenali sebagai "Sisihan piawai terkumpul ‎".

Anggaran segi empat terkecil bebas vs. anggaran kemungkinan maksima berat sebelah[sunting | sunting sumber]

Kedua-dua

dan

digunakan dalam konteks yang berbeza. Yang sebelumnya boleh memberikan yang adil bagi menganggar apabila kedua-dua kumpulan berkongsi varians populasi yang sama. Yang terakhir boleh memberi anggaran lebih cekap untuk bagi menganggar berat sebelah. Perhatikan bahawa kuantiti pada sebelah kanan kedua persamaan merupakan anggaran adil.

Contoh[sunting | sunting sumber]

Pertimbangkan set data untuk y, yang diperoleh di pelbagai peringkat pembolehubah bebas x berikut.


x y
1 31, 30, 29
2 42, 41, 40, 39
3 31, 28
4 23, 22, 21, 19, 18
5 21, 20, 19, 18,17

Bilangan ujian, min, varians dan Sisihan piawai dibentangkan dalam jadual berikut.

x n ymean Sy2 S
1 3 30.0 1.0 1.0
2 4 40.5 1.67 1.29
3 2 29.5 4.5 2.12
4 5 20.6 4.3 2.07
5 5 19.0 2.5 1.58

Statistik ini mewakili varians dan sisihan piawai untuk setiap subset data di pelbagai peringkat x. Jika kita boleh mengandaikan bahawa fenomena yang sama menjana ralat rawak di setiap peringkat x, data di atas boleh "dikumpulkan" untuk menyatakan anggaran tunggal varians dan sisihan piawai. Dari satu segi, ini menunjukkan mencari min varians atau sisihan piawai di kalangan lima keputusan di atas. Varians min ini dikira dengan pemberat nilai individu dengan saiz subset bagi setiap tahap x. Oleh itu, varians dikumpulkan ditakrifkan oleh

di mana n1, n2, . . . nk merupakan saiz subset data pada setiap peringkat pelbagai x, and S12, S22, . . ., Sk2 adalah perbezaan masing-masing.

di mana n 1, n 2,. . N k adalah saiz subset data di peringkat setiap x berubah-ubah, dan S 1 2, S 2 2,. . , S k 2 adalah perbezaan masing-masing.

Varians tergembleng data yang ditunjukkan di atas adalah:

Rujukan[sunting | sunting sumber]

  • Killeen PR (2005). "An alternative to null-hypothesis significance tests". Psychol Sci. 16 (5): 345–53. doi:10.1111/j.0956-7976.2005.01538.x. PMC 1473027. PMID 15869691. Unknown parameter |month= ignored (bantuan)

Pautan luaran[sunting | sunting sumber]