Модус (статистика)
Модус је вредност која се у узорку или групи података појављује најчешће.[1] Заједно са аритметичком средином, медијаном, стандардном девијацијом итд. улази међу мере које са најчешће користе у дескриптивној статистици. Ако је X дискретна случајна променљива, модус је вредност x (и.е, X = x) при којој функција масе вероватноће узима своју максималну вредност. Другим речима, то је вредност с највећом вероватноћом да буде узоркована.
Попут статистичке средине и медијане, модус је начин изражавања, (обично) појединачног броја, важних информација о случајној променљивој или популацији. Нумеричка вредност модуса је иста као и средња вредност и медијана у нормалној расподели, а може бити веома различита у веома искривљеним расподелама.
Модус није нужно јединствен за дату дискретну расподелу, јер функција масе вероватноће може узети исту максималну вредност у неколико тачака x1, x2, итд. Најекстремнији случај се јавља у униформним расподелама, где се све вредности јављају подједнако често.
Када функција густине вероватноће непрекидне расподеле има више локалних максимума, уобичајено је да се сви локални максимуми називају модусима расподеле. Таква континуирана дистрибуција назива се мултимодална (за разлику од унимодалне). Модусом континуиране расподеле вероватноће често се сматра било која вредност x при којој њена функција густине вероватноће има локално максималну вредност, те је сваки врх модус.[2]
У симетричним унимодалним расподелама, као што је нормална расподела, средња вредност (ако је дефинисана), медијана и модус се подударају. За узорке, ако је познато да су узети из симетричне унимодалне расподеле, средња вредност узорка може се користити као процена популационог модуса.
Модус узорка
[уреди | уреди извор]Модус узорка је елемент који се најчешће јавља у колекцији. На пример, модус узорка [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] је 6. За листу података [1, 1, 2, 4, 4] модус није јединствен - за тај скуп података може се рећи да је бимодалан, док се скуп са више од два модуса може описати као мултимодални.
За узорак из континуиране дистрибуције, као што је [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], концепт је неупотребљив у сировом облику, јер нема две вредности које су потпуно исте, те ће се свака вредност појавити тачно једном. Да би се проценио модус такве расподеле, уобичајена пракса је да се подаци дискретизују додељивањем вредности фреквенције интервалима једнаког распона, попут израде хистограма, ефективно замењујући вредности средњим тачкама интервала којима су додељене. Модус је тада вредност где хистограм достиже врхунац. За узорке малих или средњих величина исход овог поступка је осетљив на избор ширине интервала, ако је изабран преуски или преширок опсег; типично треба имати значајан део података концентрисан у релативно малом броју интервала (5 до 10), док је део података који пада изван ових интервала такође знатан. Алтернативни приступ је процена густине језгра, која у основи замућује узорке тачака да би се произвела континуирана процена функције густине вероватноће која може пружити процену модуса.
Следећи пример МАТЛАБ (или Оцтаве) кода израчунава модус узорка:
X = sort(x);
indices = find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] = max (diff([0; indices])); % longest persistence length of repeated values
mode = X(indices(i));
Алгоритам као први корак захтева сортирање узорка у растућем редоследу. Затим израчунава дискретни дериват сортиране листе и проналази индексе где је овај дериват позитиван. Затим израчунава дискретни дериват овог скупа индекса, лоцирајући максимум овог деривата индекса и на крају процењује сортирани узорак на месту где се тај максимум јавља, што одговара последњем члану низа поновљених вредности.
Поређење аритметичке средине, медијане и модуса
[уреди | уреди извор]Тип | Опис | Пример | Ресулт |
---|---|---|---|
Аритметичка средина | Збир вредности скупа података подељен бројем вредности | (1+2+2+3+4+7+9) / 7 | 4 |
Медијана | Средња вредност која раздваја већу и мању половину скупа података | 1, 2, 2, 3, 4, 7, 9 | 3 |
Модус | Најчешћа вредност у скупу података | 1, 2, 2, 3, 4, 7, 9 | 2 |
Употреба
[уреди | уреди извор]За разлику од средње вредности и медијане, концепт модуса такође има смисла за „номиналне податке“ (тј. који се не састоје од нумеричких вредности у случају средње вредности, или чак од уређених вредности у случају медијане). На пример, узимајући узорак корејских презимена, могло би се утврдити да се „Ким“ јавља чешће од било ког другог имена. Тада би „Ким“ био модус узорковања. У било којем систему гласања у којем плуралитет одређује победу, појединачна модална вредност одређује победника, док би за вишемодални исход био потребан одређени поступак прекида.
За разлику од медијане, концепт модуса има смисла за било коју случајну променљиву која преузима вредности из векторског простора, укључујући реалне бројеве (једнодимензионални векторски простор) и целе бројеве (који се могу сматрати уграђеним у реалне вредности). На пример, расподела тачака у равни обично има средњу вредност и модус, али концепт медијане се не примењује. Медијана има смисла када постоји линеарни редослед могућих вредности. Генерализације концепта медијане на просторе виших димензија су геометријска медијана и средишња тачка.
Јединственост и дефинисаност
[уреди | уреди извор]За неке расподеле вероватноће, очекивана вредност може бити бесконачна или недефинисана, али ако је дефинисана, јединствена је. Средња вредност (коначног) узорка је увек дефинисана. Медијана је вредност таква да разломци који је не премашују и не падају испод ње су сваки најмање 1/2. То није нужно јединствено, али никада није бесконачно или потпуно недефинисано. За узорак података то је вредност „на пола пута“ када је листа вредности уређена по растућим вредностима, где се обично за листу парне дужине узима нумерички просек две вредности најближе „половини пута“. Коначно, као што је претходно речено, модус није нужно јединствен. Одређене патолошке расподеле (на пример, Канторова расподела) уопште немају дефинисан модус.[4][5][6][7] За коначни узорак података, модус је једна (или више) вредности у узорку.
Својства
[уреди | уреди извор]Под претпоставком дефинисаности, и зарад једноставности јединствености, следе нека од најзанимљивијих својстава.
- Све три мере имају следеће својство: Ако је случајна променљива (или свака вредност из узорка) подвргнута линеарној или афиној трансформацији, која замењује X са аX+б, такви су и средња вредност, медијана и модус.
- Осим за изузетно мале узорке, модус је неосетљив на „изузетке“ (попут повремених, ретких, лажних експерименталних очитавања). Медијана је такође врло робусна у присуству одступања, док је средња вредност прилично осетљива.
- У континуираној унимодалној расподели медијана се често налази између средње вредности и модуса, на отприлике једној трећини пута идући од средње вредности до модуса. У формули, медијана ≈ (2 × средња вредност + модус) / 3. Ово правило, захваљујући Карлу Пирсону, често се примењује на благо несиметричне расподеле које подсећају на нормалну расподелу, мада то није увек тачно и генерално се ова три статистичка параметра могу појавити у било ком редоследу.[8][9]
- За унимодалне дистрибуције, модус је унутар стандардне девијације средње вредности, и корен средње квадратне дефијације око модуса је између једне и две стандардне девијације.[10]
Пример за асиметричну расподелу
[уреди | уреди извор]Пример асиметричне расподеле је лично богатство: Мало људи је веома богато, али међу њима су неки изузетно богати. Међутим, многи су прилично сиромашни.
Добро позната класа расподела која може бити произвољно асиметрична дата је лог-нормалном расподелом. Она се добија трансформацијом случајне променљиве X која има нормалну расподелу у случајну променљиву Y = eX. Тада се нормално дистрибуира логаритам случајне променљиве Y, те отуда и назив.
Узимајући средњу вредност μ од X да је 0, медијана од Y биће 1, независно од стандардне девијације σ од X. То је зато што X има симетричну расподелу, те је и његова медијана 0. Трансформација из X у Y је монотона, и тако се налази медијана e0 = 1 for Y.
Када X има стандардну девијацију σ = 0,25, расподела Y је слабо искошена. Користећи формуле за лог-нормалну дистрибуцију, проналази се:
Заправо, медијана је око једне трећине на путу од средње вредности до модуса.
Када X има већу стандардну девијацију, σ = 1, расподела од Y је јако искошена. Сада
Овде, Пирсоново правило не успева.
Ван Зветов услов
[уреди | уреди извор]Ван Звет је извео неједнакост која пружа довољне услове да та неједнакост вреди.[11] Неједнакост
- модус ≤ медијана ≤ аритметичка средина
је важећа, ако
- F( medijana - x ) + F( medijana + x ) ≥ 1
за свако x где је F() кумулативна функција расподеле.
Унимодалне расподеле
[уреди | уреди извор]За унимодалну расподелу може се приказати да медијана и средња вредност леже унутар (3/5)1/2 ≈ 0,7746 стандардних одступања једно од другог.[12] У симболима,
где је апсолутна вредност.
Слична веза постоји и између медијане и модуса: они леже унутар 31/2 ≈ 1,732 стандардних одступања једно од другог:
Историја
[уреди | уреди извор]Термин модс потиче од Карла Пирсона из 1895. године.[13]
Пирсон користи термин модус наизменично са максималном ординатом. У фусноти каже: „Сматрао сам да је погодно да користим термин модус за апсцису који одговара ординати максималне фреквенције“.
Пример
[уреди | уреди извор]Ако су оцене које су на контролном задатку добили ученици следеће: 1, 2, 3, 3, 3, 3, 4, 4, 5, 5 – оцена 3 је модус јер се појављује најчешће.
Референце
[уреди | уреди извор]- ^ Дамодар Н. Гујарати ф Ецонометрицс. МцГраw-Хилл Ирwин. 3рд едитион, 2006: п. 110.пробабилитy дистрибутион]]
- ^ Зханг, C; Мапес, БЕ; Соден, БЈ (2003). „Бимодалитy ин тропицал wатер вапоур”. Q. Ј. Р. Метеорол. Соц. 129: 2847—2866. дои:10.1256/qј.02.166.
- ^ „АП Статистицс Ревиеw - Денситy Цурвес анд тхе Нормал Дистрибутионс”. Архивирано из оригинала 2. 4. 2015. г. Приступљено 16. 3. 2015.
- ^ Хеwитт, Е.; Стромберг, К. (1965). Реал анд Абстрацт Аналyсис. Берлин-Хеиделберг-Неw Yорк: Спрингер-Верлаг. Тхис, ас wитх отхер стандард теxтс, хас тхе Цантор фунцтион анд итс оне сидед дериватес.
- ^ Ху, Тиан-Yоу; Лау, Ка Синг (2002). „Фоуриер Асyмптотицс оф Цантор Тyпе Меасурес ат Инфинитy”. Проц. А.M.С. 130 (9). стр. 2711—2717. Тхис ис море модерн тхан тхе отхер теxтс ин тхис референце лист.
- ^ Книлл, О. (2006). Пробабилитy Тхеорy & Стоцхастиц Процессес. Индиа: Оверсеас Пресс.
- ^ Маттилла, П. (1995). Геометрy оф Сетс ин Еуцлидеан Спацес. Сан Францисцо: Цамбридге Университy Пресс.
- ^ „Релатионсхип бетwеен тхе меан, медиан, моде, анд стандард девиатион ин а унимодал дистрибутион”.
- ^ Хиппел, Паул Т. вон (2005). „Меан, Медиан, анд Скеw: Цоррецтинг а Теxтбоок Руле”. Јоурнал оф Статистицс Едуцатион. 13 (2). дои:10.1080/10691898.2005.11910556 . Архивирано из оригинала 14. 10. 2008. г. Приступљено 28. 12. 2020.
- ^ Боттомлеy, Х. (2004). „Маxимум дистанце бетwеен тхе моде анд тхе меан оф а унимодал дистрибутион” (ПДФ). Унпублисхед препринт.
- ^ ван Зwет, WР (1979). „Меан, медиан, моде ИИ”. Статистица Неерландица. 33 (1): 1—5. дои:10.1111/ј.1467-9574.1979.тб00657.x.
- ^ Басу, Сањиб; Дасгупта, Анирбан (1997). „Тхе меан, медиан, анд моде оф унимодал дистрибутионс: а цхарацтеризатион”. Тхеорy оф Пробабилитy & Итс Апплицатионс. 41 (2): 210—223. дои:10.1137/С0040585X97975447.
- ^ Пеарсон, Карл (1895). „Цонтрибутионс то тхе Матхематицал Тхеорy оф Еволутион. II. Скеw Вариатион ин Хомогенеоус Материал” (ПДФ). Пхилосопхицал Трансацтионс оф тхе Роyал Социетy оф Лондон А. 186: 343—414. дои:10.1098/рста.1895.0010.
Литература
[уреди | уреди извор]- Спанос, Арис (1999). Пробабилитy Тхеорy анд Статистицал Инференце. Неw Yорк: Цамбридге Университy Пресс. стр. 109–130. ИСБН 0-521-42408-9.
Спољашње везе
[уреди | уреди извор]- Хазеwинкел Мицхиел, ур. (2001). „Моде”. Енцyцлопаедиа оф Матхематицс. Спрингер. ISBN 978-1556080104.
- A Guide to Understanding & Calculating the Mode
- Wеисстеин, Ериц W. „Моде”. МатхWорлд.
- Mean, Median and Mode short beginner video from Khan Academy