Узорак (статистика)

Узорак је изабрани део статистичког скупа који треба да представља репрезент популације која је обухваћена истраживањем. Уколико је узорак репрезентативан по свим важним својствима, резултати добијени истраживањем су поузданији. Статистичким путем се могу формирати различити типови узорака од којих су најпознатији: стратификовани, квотни, спарени, пропорционални и сл. Грешке код формирања узорка могу бити стандардне и вероватне што се израчунава посебним поступком.

У статистици, осигурању квалитета и методологији анкета, узорковање је одабир подскупа (статистички узорак) појединаца из статистичке популације^[1]^[2]^[3] за процену карактеристика целе популације. Статистичари настоје да узорци представљају дотичну популацију. Две предности узорковања су нижа цена и брже прикупљање података од мерења целокупне популације.

Свако посматрање мери једно или више својстава (као што су тежина, локација, боја) посматраних тела која се разликују као независни објекти или појединци. У анкетном узорковању, могу се применити пондери на податке како би се прилагодили дизајну узорка, посебно у слојевитом узорковању.^[4] Резултати теорије вероватноће и статистичке теорије користе се за вођење праксе. У пословним и медицинским истраживањима, узорковање се широко користи за прикупљање података о популацији.^[5] Прихватање узорка се користи да би се утврдило да ли производна серија материјала испуњава важеће спецификације.

Дефиниција популације

Успешна статистичка пракса заснива се на фокусираном дефинисању проблема. У узорковање, ово укључује дефинисање „популације” из које се узима наш узорак. Популација се може дефинисати тако да укључује све људе или предмете са карактеристикама које неко жели да разуме. Будући да врло ретко има довољно времена или новца за прикупљање информација од свих или свега у некој популацији, циљ постаје проналажење репрезентативног узорка (или подскупa) те популације.

Понекад је очигледно оно што дефинише популацију. На пример, произвођач мора да одлучи да ли је серија материјала из производње довољно квалитетна да се прода купцу или треба да буде послата на отпад или дораду због лошег квалитета. У овом случају, серија је популација.

Иако се популација од интереса често састоји од физичких предмета, понекад је потребно узорковати током времена, простора или неке комбинације ових димензија. На пример, истрага особља особља супермаркета могла би да испита дужину линије за наплату у различито време, или би студија о угроженим пингвинима могла да има за циљ разумевање њиховог коришћења различитих ловишта током времена. Што се тиче временске димензије, фокус може бити на периодима или дискретним тачкама.

У другим случајевима, испитана „популација” може бити још мање опипљива. На пример, Џозеф Џагер је проучавао понашање точкова рулета у касину у Монте Карлу и то је користио за идентификацију пристрасног точка. У овом случају, „популација” коју је Џегер желео да истражи било је целокупно понашање точка (тј. расподела вероватноће^[6]^[7]^[8] његових резултата током бесконачно много испитивања), док је његов „узорак” формиран из запажених резултата са тог точка. Слична разматрања се јављају приликом поновљених мерења неких физичких карактеристика, попут електричне проводљивости бакра.

Ова ситуација се често јавља када се тражи знање о узрочном систему чији је исход посматрана популација. У таквим случајевима, теорија узорковања може посматрану популацију третирати као узорак из веће „суперпопулације”. На пример, истраживач би могао да проучава стопу успешности новог програма за „престанак пушења” на тест групи од 100 пацијената, како би предвидео ефекте програма ако би био доступан широм земље. Овде је суперпопулација „сви у земљи, који имају приступ овом третману” - група која још увек не постоји, јер програм још увек није доступан свима.

Популација из које се узима узорак можда није иста као популација о којој се желе информације. Често постоји велико, али не потпуно преклапање између ове две групе због проблема са оквиром итд. (погледај испод). Понекад могу бити потпуно одвојени - на пример, неко може проучавати пацове како би боље разумео људско здравље, или може проучавати записе људи рођених 2008. године како би извео предвиђања о људима рођеним 2009. године.

Време проведено у прецизирању узорковане популације и популације од интереса обично је добро утрошено, јер покреће многа гледишта, нејасноће и питања која би иначе била превиђени у овом ступњу.

Оквир узорковања

У најједноставнијем случају, као што је узорковање серије материјала из производње (узимање узорака по партијама), било би најпожељније идентификовати и измерити сваку поједину ставку у популацији и укључити било коју од њих у наш узорак. Међутим, у општијем случају то обично није могуће или практично. Не постоји начин да се идентификују сви пацови у скупу свих пацова. Тамо где гласање није обавезно, не постоји начин да се утврди који ће људи гласати на предстојећим изборима (пре избора). Ове непрецизне популације нису подложне узорковању ни на један од доле наведених начина, а на које бисмо могли применити статистичку теорију.

Као алтернатива, тражи се оквир узорковања који има својство да може идентификовати сваки појединачни елемент и укључити било који у узорак.^[9]^[10]^[11]^[12] Најједноставнији тип оквира је листа елемената популације (по могућности целокупне популације) са одговарајућим контактним подацима. На пример, у анкети, могући оквири за узорковање укључују бирачки списак и телефонски именик.

Узорак вероватноће је узорак у коме свака јединица у популацији има шансу (већу од нуле) да буде изабрана у узорку и ова вероватноћа се може тачно одредити. Комбинација ових особина омогућава израду непристрасних процена популационог тотала, пондерисањем узоркованих јединица према њиховој вероватноћи избора.

Пример: Ми желимо да проценимо укупан приход одраслих који живе у датој улици. Ми посетимо свако домаћинство у тој улици, идентификујемо све одрасле особе које тамо живе и насумично одаберемо по једну одраслу особу из сваког домаћинства. (На пример, свакој особи можемо доделити рандомни број, генерисан из униформне расподеле између 0 и 1, и одабрати особу са највећим бројем у сваком домаћинству). Ми затим интервјуишемо изабрану особу и проналазимо њен приход.
Сигурно ће бити изабрани људи који живе самостално, те једноставно додајемо њихов приход нашој процени укупног износа. Међутим особа која живи у домаћинству двоје одраслих има само једну у две шансе за избор. Да бисмо то одразили, када дођемо у такво домаћинство, доходак одабране особе рачунаћемо два пута у укупном износу. (Особа која је изабрана из тог домаћинства може се сматрати да такође представља особу која није изабрана.)

У горњем примеру, немају сви исту вероватноћу избора; оно што га чини узорком вероватноће је чињеница да је вероватноћа сваке особе позната. Када сваки елемент у популацији има исту вероватноћу селекције, то је познато као дизајн „једнаке вероватноће селекције”. Такви се дизајни називају и „самопондерисаним”, јер се свим узоркованим јединицама даје иста тежина.

Узорковање вероватноће обухвата: једноставно случајно узорковање, систематско узорковање, слојевито узорковање, величину узорковања пропорционалну вероватноћи, и кластерско или вишестепено узорковање. Ови различити начини узорковања имају две заједничке карактеристике:

Сваки елемент има познату различиту од нуле вероватноћу узорковања и
укључује случајни одабир у неком тренутку

Референце

^ „Glossary of statistical terms: Population”. Statistics.com. Архивирано из оригинала 03. 03. 2016. г. Приступљено 22. 2. 2016.
^ Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd изд.). New York: Freeman. ISBN 978-0-7167-4773-4. Архивирано из оригинала 9. 2. 2005. г.
^ Mosteller, F.; Tukey, J. W. (1987) [1968]. „Data Analysis, including Statistics”. The Collected Works of John W. Tukey: Philosophy and Principles of Data Analysis 1965–1986. 4. CRC Press. стр. 601–720 [p. 633]. ISBN 0-534-05101-4 — преко Google Books.
^ Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. стр. 6—8, 62—64.
^ Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.
^ Evans, Michael; Rosenthal, Jeffrey S. (2010). Probability and statistics: the science of uncertainty (2nd изд.). New York: W.H. Freeman and Co. стр. 38. ISBN 978-1-4292-2462-8. OCLC 473463742.
^ Everitt, Brian (2006). The Cambridge dictionary of statistics (3rd изд.). Cambridge, UK: Cambridge University Press. ISBN 978-0-511-24688-3. OCLC 161828328.
^ Ash, Robert B. (2008). Basic probability theory (Dover изд.). Mineola, N.Y.: Dover Publications. стр. 66—69. ISBN 978-0-486-46628-6. OCLC 190785258.
^ Robert M. Groves; et al. (2009). Survey methodology. ISBN 978-0470465462.
^ Lohr, Sharon L. (1999). Sampling: Design and analysis.
^ Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Model Assisted Survey Sampling.
^ Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Elementary survey sampling.

Литература

Овај чланак или његов део изворно је преузет из Речника социјалног рада Ивана Видановића уз одобрење аутора.
Chambers, R L, and Skinner, C J (editors) (2003), Analysis of Survey Data, Wiley, ISBN 0-471-89987-9
Deming, W. Edwards (1975) On probability as a basis for action, The American Statistician, 29(4), pp. 146–152.
Gy, P (2012) Sampling of Heterogeneous and Dynamic Material Systems: Theories of Heterogeneity, Sampling and Homogenizing, Elsevier Science, ISBN 978-0444556066
Korn, E.L., and Graubard, B.I. (1999) Analysis of Health Surveys, Wiley, ISBN 0-471-13773-1
Lucas, Samuel R. (2012). „Beyond the Existence Proof: Ontological Conditions, Epistemological Implications, and In-Depth Interview Research”. Quality & Quantity. doi:10.1007%2Fs11135-012-9775-3 Проверите вредност параметра |doi= (помоћ).
Stuart, Alan (1962) Basic Ideas of Scientific Sampling, Hafner Publishing Company, New York
Smith, T. M. F. (1984). „Present Position and Potential Developments: Some Personal Views: Sample surveys”. Journal of the Royal Statistical Society, Series A. 147 (The 150th Anniversary of the Royal Statistical Society, number 2): 208—221. JSTOR 2981677. doi:10.2307/2981677.
Smith, T. M. F. (1993). „Populations and Selection: Limitations of Statistics (Presidential address)”. Journal of the Royal Statistical Society, Series A. 156 (2): 144—166. JSTOR 2982726. doi:10.2307/2982726.
Smith, T. M. F. (2001). „Centenary: Sample surveys”. Biometrika. 88 (1): 167—243. doi:10.1093/biomet/88.1.167.
Smith, T. M. F. (2001). „Biometrika centenary: Sample surveys”. Ур.: D. M. Titterington and D. R. Cox. Biometrika: One Hundred Years. Oxford University Press. стр. 165—194. ISBN 978-0-19-850993-6.
Whittle, P. (мај 1954). „Optimum preventative sampling”. Journal of the Operations Research Society of America. 2 (2): 197—203. JSTOR 166605. doi:10.1287/opre.2.2.197.
Shahrokh Esfahani, Mohammad; Dougherty, Edward (2014). „Effect of separate sampling on classification accuracy”. Bioinformatics. 30 (2): 242—250. PMID 24257187. doi:10.1093/bioinformatics/btt662 .
Robert Groves, et alia. Survey methodology (2010 2nd ed. [2004]) ISBN 0-471-48348-6.
David S. Moore and George P. McCabe (February 2005). "Introduction to the practice of statistics" (5th edition). W.H. Freeman & Company. ISBN 0-7167-6282-X.
Freedman, David; Pisani, Robert; Purves, Roger (2007). Statistics (4th изд.). New York: Norton. ISBN 978-0-393-92972-0. Архивирано из оригинала 06. 07. 2008. г.
Scheaffer, Richard L., William Mendenhal and R. Lyman Ott. Elementary survey sampling, Fifth Edition. Belmont: Duxbury Press, 1996.
Cochran, William G. (1977). Sampling techniques (Third изд.). Wiley. ISBN 978-0-471-16240-7.
Lohr, Sharon L. (1999). Sampling: Design and analysis. Duxbury. ISBN 978-0-534-35361-2.
Deming, W. Edwards (1966). Some Theory of Sampling. Dover Publications. ISBN 978-0-486-64684-8. OCLC 166526.
Kish, Leslie (1995) Survey Sampling, Wiley, ISBN 0-471-10949-5
Raymond James Jessen (1978). Statistical survey techniques. Wiley. Приступљено 2. 1. 2011.
Roger Sapsford; Victor Jupp (29. 3. 2006). Data collection and analysis. SAGE. стр. 28—. ISBN 978-0-7619-4363-1. Приступљено 2. 1. 2011.

Стандарди

ISO

ISO 2859 series
ISO 3951 series

ASTM

ASTM E105 Standard Practice for Probability Sampling Of Materials
ASTM E122 Standard Practice for Calculating Sample Size to Estimate, With a Specified Tolerable Error, the Average for Characteristic of a Lot or Process
ASTM E141 Standard Practice for Acceptance of Evidence Based on the Results of Probability Sampling
ASTM E1402 Standard Terminology Relating to Sampling
ASTM E1994 Standard Practice for Use of Process Oriented AOQL and LTPD Sampling Plans
ASTM E2234 Standard Practice for Sampling a Stream of Product by Attributes Indexed by AQL

ANSI, ASQ

ANSI/ASQ Z1.4

U.S. федерални и војни стандарди

MIL-STD-105
MIL-STD-1916

Спољашње везе

Turner, Anthony G. „Sampling frames and master samples” (PDF). United Nations Secretariat. Приступљено 2020-11-15.

[1] „Glossary of statistical terms: Population”. Statistics.com. Архивирано из оригинала 03. 03. 2016. г. Приступљено 22. 2. 2016.

[2] Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (2nd изд.). New York: Freeman. ISBN 978-0-7167-4773-4. Архивирано из оригинала 9. 2. 2005. г.

[3] Mosteller, F.; Tukey, J. W. (1987) [1968]. „Data Analysis, including Statistics”. The Collected Works of John W. Tukey: Philosophy and Principles of Data Analysis 1965–1986. 4. CRC Press. стр. 601–720 [p. 633]. ISBN 0-534-05101-4 — преко Google Books.

[4] Lance, P.; Hattori, A. (2016). Sampling and Evaluation. Web: MEASURE Evaluation. стр. 6—8, 62—64.

[5] Salant, Priscilla, I. Dillman, and A. Don. How to conduct your own survey. No. 300.723 S3. 1994.

[:1-6] Evans, Michael; Rosenthal, Jeffrey S. (2010). Probability and statistics: the science of uncertainty (2nd изд.). New York: W.H. Freeman and Co. стр. 38. ISBN 978-1-4292-2462-8. OCLC 473463742.

[:02-7] Everitt, Brian (2006). The Cambridge dictionary of statistics (3rd изд.). Cambridge, UK: Cambridge University Press. ISBN 978-0-511-24688-3. OCLC 161828328.

[8] Ash, Robert B. (2008). Basic probability theory (Dover изд.). Mineola, N.Y.: Dover Publications. стр. 66—69. ISBN 978-0-486-46628-6. OCLC 190785258.

[Robert_M._Groves,_et_al-9] Robert M. Groves; et al. (2009). Survey methodology. ISBN 978-0470465462.

[10] Lohr, Sharon L. (1999). Sampling: Design and analysis.

[11] Särndal, Carl-Erik; Swensson, Bengt; Wretman, Jan. Model Assisted Survey Sampling.

[12] Scheaffer, Richard L.; William Mendenhal; R. Lyman Ott. (2006). Elementary survey sampling.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Нормативна контрола
Државне	Немачка Израел Сједињене Државе Јапан Чешка 2
Остале	Енциклопедија Британика 2 NARA