Údaje v štatistike
Získavanie údajov
Štatistika nie sú iba nejaké vzorce, ktorými sa dajú z dát vytiahnuť informácie. Štatistika začína už pri získavaní údajov.Keď v škole počítaš príklad zo štatistiky, tak máš väčšinou údaje zadané. Napríklad niečo takéto: Učiteľ telocviku meral žiakom 5.A. čas na 100 metrov behu. Časy boli takéto: 28.5s, 30.1s, 25.6s, 48.2s atď. S údajmi teda nemáš žiadne starosti, iba ich zoberieš a vyrátaš to, čo od teba chcú.
V skutočnosti je získavanie údajov zložitejšie. Predstav si, že robíš na štatistickom úrade a chceš zistiť koľko zvierat priemerne chovajú Slováci (je to hlúposť, ale na príklad stačí. Pokojne si vymysli aj nejakú normálnejšiu otázku :D ). Spravíš si teda dotazník s otázkou a ideš od obyvateľstva získať údaje o počte chovaných zvierat.
Myslíš, že sa spýtaš každého jedného obyvateľa Slovenska? Asi nebudeš mať možnosť obehať celé Slovensko. Musíš si teda vybrať iba zopár nejakých ľudí. Zistíš údaje iba o nejakej časti Slovákov, nie o všetkých. Keď vypočítaš priemer z napr. 1000 Slovákov, môžeš povedať, že platí pre celú krajinu? Asi nie. To je prvý problém.
Teda už máš vybratú vzorku. Ale vybral si ju správne? Keď vyberieš iba ľudí, ktorí žijú v bytoch, dostaneš trochu iný priemer, ako keď vyberieš iba farmárov. Takisto deti budú chovať menej zvierat ako dospelí, takže keď budeš robiť priemer zo svojich kamarátov dostaneš iný priemer, ako keby si ho robil z rodičov alebo starých rodičov. Z tohto vyplýva, že nemôžeš do vzorky vyberať iba "rovnakých" ľudí. To je druhý problém. Dá sa vyriešiť tým, že do vzorky vyberieš z každého rožka troška. Spýtaš sa aj detí, aj dospelých, aj tých čo majú alergiu na srsť, aj tých čo zvieratá chovajú vo veľkom. Rôznorodú vzorku dostaneš tak, že ľudí povyberáš náhodne. Keď ti pomáha náhoda, je malá pravdepodobnosť, že do vzorky povyťahuješ rovnakých ľudí.
Už máš vo vzorke aj rôznych ľudí, ale máš ju dostatočne veľkú? Veľkosť vzorky tiež vplýva na výsledky. Čím ju máš väčšiu, tým budú údaje presnejšie.
Toto sú také základné problémy, s ktorými sa štatistika stretá hneď na začiatku. S tým, že nemôžeš získať údaje od všetkých, naozaj nič nespravíš. Dá sa tomu pomôcť tým, že sa budeš snažiť mať vzorku čo najväčšiu. A tiež čo najrôznorodejšiu.
Získanie údajov o futbalistoch
Vráťme sa k nášmu problému, že chceš kúpiť futbalistov. Chceš ten najlepší klub, ale aby si mohol objektívne určiť, ktorý je ten najlepší, potrebuješ zistiť, kde hrajú tí najlepší futbalisti.Kvalitu futbalistu chceš tiež určiť objektívne a tak začneš o ňom zberať údaje. Začneš merať ako rýchlo behá, akú má silnú strelu, ako dobre prihráva, ako dobre vedie loptu a milión päť podobných vecí. Nebojsa, nemusíš teraz k sebe domov zavolať Ronalda a dať mu behať šesťdesiatku na čas. Meranie údajov už za teba urobili iný. Na videu si môžeš pozrieť, ako to spravili.
Namerané údaje zapísali do tabuľky a zverejnili ju na internet [1]. My sme si ju odtiaľ stiahli, aby sme vás mohli trápiť so štatistikou. Takže údaje máme a môžeme si ich trochu poprezerať.
Začiatok analýzy údajov o futbalistoch
Ako správny štatistik, musíš sa na začiatku oboznámiť s tvojimi údajmi. Prvú vec, ktorú sme zisťovali, bola veľkosť údajov. Počítač nám vypísal, že máme 18 278 hráčov a každý má 104 atribútov. Aby si vedel, čo je atribút, tak je to nameraný údaj o futbalistovi. Napríklad jeho meno, plat, pozícia, tím, sila strely, rýchlosť a ďalších vyše sto podobných vecí. Pri výpočtoch nám bude pomáhať počítač, lebo ak by sme mali analyzovať 18 000 futbalistov na papier, tak by sme si ruky po lakte zodrali.![=Údaje o futbalistoch](assets/images/stat_RawData.png)
Chceli sme vedieť čo, ktorý atribút znamená, a tak sme trochu googlili. Chceli sme nájsť atribút, ktorý bude reprezentovať celkovú kvalitu futbalistu a aj sme ho našli. Je to atribút overall [2]. Zistili sme o ňom, že môže mať hodnoty od 0 po 99 [3]. Čím je hodnota vyššia, tým je futbalista lepší. Messi s hodnotou 94 vedie rebríček. Za ním je Ronaldo s 93, Neymar s 92. Štvrtý Oblak a piaty Hazard majú zhodne po 91. Rebríček uzatvára posledný Pan Ximing s hodnotou 48.
Futbalistov sme priradili jednotlivým klubom, aby sme mohli zistiť, ktorý klub má najlepších futbalistov a ktorý teda chceme kúpiť. Zistili sme, že máme 668 klubov.
Na jedenástich futbalistoch Interu Milano budeme vysvetľovať vzorce, tak ti ich sem napíšeme, nech vieš s akými údajmi počítame. Opíš si ich niekde vedľa na papier, nech sa nemusíš stále preklikávať.
Meno hráča | Overall |
---|---|
Samir Handanovič | 88 |
Diego Godín | 88 |
Milan Škriniar | 86 |
Romelu Lukaku | 85 |
Mauro Emanuel Icardi Rivero | 85 |
Stefan de Vrij | 84 |
Matteo Politano | 82 |
Lautaro Martínez | 81 |
João Mário Naval Costa Eduardo | 81 |
Marcelo Brozović | 81 |
Nicolò Barella | 80 |
Máme už údaje o futbalistoch, máme atribút, ktorý definuje ako je futbalista dobrý, ale stále nevieme, ktorý tím je ten naj. Na to, aby sme sa to dozvedeli, treba vedieť niečo zo štatistiky.
Zdroje
[1] FIFA 20 complete player dataset. 2020. https://www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset
[2] Overall Rating. 2021. https://www.fifplay.com/encyclopedia/overall-rating/
[3] Player Attributes. 2021. https://www.fifplay.com/encyclopedia/player-attributes/
[2] Overall Rating. 2021. https://www.fifplay.com/encyclopedia/overall-rating/
[3] Player Attributes. 2021. https://www.fifplay.com/encyclopedia/player-attributes/