Pređi na sadržaj

Medijana (statistika)

S Vikipedije, slobodne enciklopedije

Pronalaženje medijane u skupovima podataka sa parnim i neparnim brojem vrednosti

Medijana se u teoriji verovatnoće i statistici opisuje kao broj koji razdvaja gornju polovinu uzorka, populacije ili raspodele verovatnoće od donje polovine. Medijana konačnog niza brojeva se može naći tako što se brojevi poređaju po veličini, i uzme se srednji član niza. Ukoliko postoji paran broj članova niza, medijana nije jedinstvena, pa se često uzima aritmetička sredina dve vrednosti koje su kandidati za medijanu.

Konačan skup podataka brojeva[uredi | uredi izvor]

Medijana konačne liste brojeva je „srednji“ broj, kada su ti brojevi navedeni po redu od najmanjeg do najvećeg.

Ako skup podataka ima neparan broj posmatranja, bira se srednji. Na primer, sledeća lista od sedam brojeva,

1, 3, 3, 6, 7, 8, 9

ima medijanu 6, što je četvrta vrednost.

Ako skup podataka ima paran broj zapažanja, ne postoji jasna srednja vrednost i medijana se obično definiše kao aritmetička sredina dve srednje vrednosti.[1][2] Na primer, ovaj skup podataka od 8 brojeva

1, 2, 3, 4, 5, 6, 8, 9

ima srednju vrednost od 4,5, odnosno . (U više tehničkom smislu, ovo tumači medijanu kao potpuno skraćeni srednji opseg).

Generalno, sa ovom konvencijom, medijana se može definisati na sledeći način: Za skup podataka od elemenata, poređanih od najmanjeg do najvećeg,

ako je neparno,
ako je parno,
Poređenje uobičajenih proseka vrednosti [ 1, 2, 2, 3, 4, 7, 9 ]
Tip Opis Primer Rezultat
Aritmetička sredina Zbir vrednosti skupa podataka podeljen brojem vrednosti: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Medijana Srednja vrednost koja razdvaja veću i manju polovinu skupa podataka 1, 2, 2, 3, 4, 7, 9 3
Mod Najčešća vrednost u skupu podataka 1, 2, 2, 3, 4, 7, 9 2

Formalna definicija[uredi | uredi izvor]

Formalno, medijana populacije je svaka vrednost takva da je najviše polovina populacije manja od predložene medijane, a najviše polovina veća od predložene medijane. Kao što se vidi gore, medijane ne moraju da budu jedinstvene. Ako svaki skup sadrži manje od polovine populacije, onda je deo populacije tačno jednak jedinstvenoj medijani.

Medijana je dobro definisana za sve uređene (jednodimenzionalne) podatke i nezavisna je od bilo koje metrike udaljenosti. Medijana se stoga može primeniti na klase koje su rangirane, ali ne i numeričke (npr. izrada srednje ocene kada su učenici ocenjeni od A do F), iako rezultat može biti na pola puta između klasa ako postoji paran broj slučajeva.

S druge strane, geometrijska medijana je definisana u bilo kom broju dimenzija. Srodni koncept, u kome je ishod primoran da odgovara članu uzorka, je medoid.

Ne postoji široko prihvaćena standardna notacija za medijanu, ali neki autori predstavljaju medijanu promenljive x bilo kao ili kao μ1/2[1], ponekad i M.[3][4] U bilo kom od ovih slučajeva, upotreba ovih ili drugih simbola za medijanu treba da bude eksplicitno definisana kada se oni uvode.

Medijana je poseban slučaj drugih načina sumiranja tipičnih vrednosti povezanih sa statističkom distribucijom: to je 2. kvartal, 5. decil i 50. percentil.

Upotrebe[uredi | uredi izvor]

Medijana se može koristiti kao mera lokacije kada se pridaje smanjeni značaj ekstremnim vrednostima, obično zato što je distribucija iskrivljena, ekstremne vrednosti nisu poznate ili su odstupnici nepouzdani, tj. mogu biti greške merenja/transkripcije.

Na primer, može se razmotriti multiset

1, 2, 2, 2, 3, 14.

Medijan je u ovom slučaju 2 (kao i mod), i može se posmatrati kao bolja indikacija centra od aritmetičke sredine od 4, koja je veća od svih vrednosti osim jedne. Međutim, široko citirani empirijski odnos da je srednja vrednost pomerena „dalje u rep“ distribucije od medijane generalno nije tačna. Uglavnom se može reći da ove dve statistike ne mogu biti „previše udaljene”; videti § Nejednakost srednje vrednosti i medijane u nastavku.[5]

Kako je medijana zasnovana na srednjim podacima u skupu, nije potrebno znati vrednost ekstremnih rezultata da bi se izračunala. Na primer, u psihološkom testu koji istražuje vreme potrebno za rešavanje problema, ako mali broj ljudi uopšte nije uspeo da reši problem u datom vremenu, medijana se ipak može izračunati.[6]

Pošto je medijana jednostavna za razumevanje i lako se izračunava, a takođe je robusna aproksimacija srednje vrednosti, ona je popularna sumarna statistika u deskriptivnoj statistici. U ovom kontekstu, postoji nekoliko izbora za meru varijabilnosti: opseg, interkvartilni opseg, srednju apsolutnu devijaciju i srednju apsolutnu devijaciju.

U praktične svrhe, različite mere lokacije i disperzije se često porede na osnovu toga koliko dobro se odgovarajuće vrednosti populacije mogu proceniti iz uzorka podataka. Medijana, procenjena korišćenjem medijane uzorka, ima dobra svojstva u ovom pogledu. Iako obično to nije optimalno ako se pretpostavi data distribucija populacije, njena svojstva su uvek razumno dobra. Na primer, poređenje efikasnosti kandidata za procenu pokazuje da je srednja vrednost uzorka statistički efikasnija kada — i samo kada — podaci nisu kontaminirani podacima iz distribucija teškog repa ili iz mešavina distribucija. Čak i tada, medijana ima efikasnost od 64% u poređenju sa srednjom minimalnom varijansom (za velike normalne uzorke), iz čega proizilazi da će varijansa medijane biti ~50% veća od varijanse srednje vrednosti.[7][8]

Raspodele verovatnoće[uredi | uredi izvor]

Geometrijska vizualizacija moda, medijane i srednje vrednosti proizvoljne funkcije gustine verovatnoće[9]

Za bilo koju kumulativnu distribuciju verovatnoće F realne, medijana je definisana kao bilo koji realan broj m koji zadovoljava nejednakosti

.

Ekvivalentna fraza koristi slučajnu promenljivu X distribuiranu prema F:

Treba imati na umu da ova definicija ne zahteva da X ima apsolutno kontinuiranu distribuciju (koja ima funkciju gustine verovatnoće ƒ), niti zahteva diskretnu distribuciju. U prvom slučaju, nejednakosti se mogu nadograditi na jednakost: medijana zadovoljava

.

Svaka distribucija verovatnoće na R ima najmanje jednu medijanu, mada u patološkim slučajevima može biti više od jedne medijane: ako je F konstanta 1/2 na intervalu (tako da je ƒ=0 tamo), onda je bilo koja vrednost tog intervala medijana.

Primer[uredi | uredi izvor]

Za niz brojeva 1, 3, 8, 9, 10, aritmetička sredina je (1+3+8+9+10)/5 = 6.2, a medijana je 8.

Za niz brojeva 1, 3, 5, 8, 9, 10, aritmetička sredina je (1+3+5+8+9+10)/6 = 6, a medijana je (5+8)/2 = 6.5

Reference[uredi | uredi izvor]

  1. ^ a b Weisstein, Eric W. „Statistical Median”. MathWorld. 
  2. ^ Simon, Laura J.; "Descriptive statistics" Arhivirano 2010-07-30 na sajtu Wayback Machine, Statistical Education Resource Kit, Pennsylvania State Department of Statistics
  3. ^ David J. Sheskin (27. 8. 2003). Handbook of Parametric and Nonparametric Statistical Procedures: Third Edition. CRC Press. str. 7—. ISBN 978-1-4200-3626-8. Pristupljeno 25. 2. 2013. 
  4. ^ Derek Bissell (1994). Statistical Methods for Spc and Tqm. CRC Press. str. 26—. ISBN 978-0-412-39440-9. Pristupljeno 25. 2. 2013. 
  5. ^ Paul T. von Hippel (2005). „Mean, Median, and Skew: Correcting a Textbook Rule”. Journal of Statistics Education, V13n2. Arhivirano iz originala 20. 02. 2016. g. Pristupljeno 18. 12. 2021. 
  6. ^ Robson, Colin (1994). Experiment, Design and Statistics in Psychology. Penguin. str. 42–45. ISBN 0-14-017648-9. 
  7. ^ Williams, D. (2001). Weighing the OddsSlobodan pristup ograničen dužinom probne verzije, inače neophodna pretplata. Cambridge University Press. str. 165. ISBN 052100618X. 
  8. ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach (na jeziku: engleski). Cambridge University Press. str. 104. ISBN 978-1-139-48667-5. 
  9. ^ „AP Statistics Review - Density Curves and the Normal Distributions”. Arhivirano iz originala 8. 4. 2015. g. Pristupljeno 16. 3. 2015. 

Literatura[uredi | uredi izvor]

Dodatna literatura[uredi | uredi izvor]

  • „Fast Computation of the Median by Successive Binning”. arXiv:abs/0806.3301Slobodan pristup Proverite vrednost parametra |arxiv= (pomoć). 

Spoljašnje veze[uredi | uredi izvor]