Legjobb statisztikai interjúkérdések

Forrás csomópont: 1121354
statistics interview questions
Technology,Abstract,Concept

Statistics is an important field that forms a strong base for learning data science and computing large volumes of data. These Statistics Interview Questions will help you prepare for jobs encompassing data science and machine learning by refreshing your memory of key aspects of Statistics as well as Probability.

Merüljünk el a Statisztikai interjúkérdésekben, amelyek segítenek felülvizsgálni koncepcióit, és segítenek az interjúk elkészítésében. 

Statisztika Interjúkérdések

1. Mi az a központi határtétel?

A központi határtétel a statisztika sarokköve. Kimondja, hogy egy nagy mintaméretű sokaságból származó minta eloszlása ​​normális eloszlású lesz. Más szóval, ez semmilyen hatással nem lesz az eredeti népességeloszlásra.

A központi határtételt széles körben használják a konfidenciaintervallumok számításakor és a hipotézisvizsgálatok során. Íme egy példa – Ki akarjuk számítani a világon élő emberek átlagos magasságát, és mintákat veszünk az általános népességből, amely adathalmazként szolgál. Mivel nehéz vagy lehetetlen adatokat szerezni a világon minden ember magasságáról, egyszerűen kiszámítjuk a mintánk átlagát. 

Többszöri szorzással megkapjuk az átlagot és azok gyakoriságát, amelyeket a grafikonon ábrázolva normális eloszlást készíthetünk. Harang alakú görbét alkot, amely nagyon hasonlít az eredeti adatkészletre.   

2. Mi a normalitás feltételezése?

A normalitás feltételezése azt diktálja, hogy a minták közötti átlagos eloszlás normális. Ez igaz a független mintákra is.  

3. Ismertesse a hipotézisvizsgálatot. Hogyan értékelik egy betekintés statisztikai szignifikanciáját?

Hipotézis A statisztikában végzett tesztelést arra használjuk, hogy megnézzük, egy bizonyos kísérlet hoz-e értelmes eredményeket. Lényegében az insight statisztikai szignifikanciájának felmérését segíti azáltal, hogy meghatározza a véletlenszerű eredmények esélyét. Az első dolog az, hogy ismerjük a nullhipotézist, majd kijelentjük. Ezután kiszámítjuk a p-értéket, és ha a nullhipotézis igaz, akkor más értékeket is meghatározunk. Az alfa érték a szignifikanciát jelöli, és ennek megfelelően kerül beállításra.

Ha a p-érték kisebb, mint az alfa, akkor a nullhipotézist elutasítjuk, de ha nagyobb, mint az alfa, akkor a nullhipotézist elfogadjuk. A nullhipotézis elutasítása azt jelzi, hogy a kapott eredmények statisztikailag szignifikánsak.

4. Mik a megfigyelési és kísérleti adatok a statisztikában?

A megfigyelési adatok bizonyos változók megfigyeléses vizsgálatokból származó megfigyeléséből származnak. A változókat megfigyeljük, hogy meghatározzuk a köztük lévő bármilyen korrelációt.

A kísérleti adatok azokból a kísérleti vizsgálatokból származnak, ahol bizonyos változókat állandóan tartanak az eltérések vagy ok-okozati összefüggések meghatározásához. 

5. Mi az a kiugró érték? 

A kiugró értékek az adatkészleten belüli adatpontokként határozhatók meg, amelyek nagymértékben eltérnek más megfigyelésekhez képest. Az okától függően a kiugró érték csökkentheti a modell pontosságát és hatékonyságát. Ezért alapvető fontosságú, hogy eltávolítsuk őket az adatkészletből. 

6. Hogyan lehet kiszűrni a kiugró értékeket egy adathalmazban?

Az adatkészletben lévő potenciális kiugró értékek kiszűrésére és azonosítására számos módszer létezik. Az alábbiakban két kulcsfontosságú módszert ismertetünk –

  • Szórás/z-pontszám – A normál eloszlásban a Z-pontszámot vagy a standard pontszámot úgy kaphatjuk meg, hogy kiszámítjuk egy szórás nagyságát, és megszorozzuk 3-mal. Ezután azonosítjuk a tartományon kívüli adatpontokat. A Z-pontszámot az átlagból mérjük. Ha a z-pontszám pozitív, az azt jelenti, hogy az adatpont átlag feletti.

Ha a z-pontszám negatív, az adatpont az átlag alatt van.

Ha a z-pontszám közel van a nullához, az adatpont közel van az átlaghoz.

Ha a z-pontszám 3 feletti vagy alatti, az kiugró érték, és az adatpont szokatlannak minősül. 

A z-pontszám kiszámításának képlete: 

z = adatpont-átlag/szórás VAGY z=x−μ/σ

  • Interkvartilis tartomány (IQR) – Az IQR, más néven midspread, egy módszer a kiugró értékek azonosítására, és úgy írható le, mint az adathalmaz 50%-ának közepén előforduló értékek tartománya. Ez egyszerűen a különbség a megfigyelés két szélső adatpontja között. 

IQR=Q3 - Q1

A kiugró értékek kiszűrésének egyéb módszerei közé tartozik az Isolation Forests, a Robust Random Cut Forests és a DBScan klaszterezés.

7. Mit jelent a inlier?

Az Inliner egy olyan adatpont az adatkészleten belül, amely a többivel azonos szinten helyezkedik el. Ez általában hiba, és a modell pontosságának javítása érdekében eltávolítják. A kiugró értékekkel ellentétben a belső adatokat nehéz megtalálni, és gyakran külső adatokra van szükség a pontos azonosításhoz. 

8. Mit jelent a hat szigma a statisztikában?

A hat szigma a statisztikákban egy minőségellenőrzési módszer hiba- vagy hibamentes adatkészlet előállítására. A szórást Sigma vagy σ néven ismerjük. Minél nagyobb a szórás, annál kevésbé valószínű, hogy a folyamat pontosan működik és hibát okoz. Ha egy folyamat eredménye 99.99966%-ban hibamentes, akkor hat szigmának számít. A hat szigma modell jobban működik, mint az 1σ, 2σ, 3σ, 4σ, 5σ folyamatok, és elég megbízható ahhoz, hogy hibamentes munkát végezzen. 

9. Mit jelent a KPI a statisztikákban?

A KPI egy kulcsfontosságú teljesítménymutató rövidítése. Számszerűsíthető mérőszámként definiálható annak megértésére, hogy a cél megvalósul-e vagy sem. A KPI egy megbízható mérőszám egy szervezet vagy egyén teljesítményszintjének mérésére a célok tekintetében. Példa a KPI-re egy szervezetben a költséghányad.

10. Mi a Pareto-elv?

A 80/20-as szabályként is ismert Pareto-elv kimondja, hogy a hatások vagy kísérleti eredmények 80%-a az okok 20%-ából származik. Egy egyszerű példa: az eladások 20%-a a vásárlók 80%-ától származik.

11. Mi a nagy számok törvénye a statisztikában?

A nagy számok törvénye szerint a kísérletek számának növekedése egy kísérletben azt eredményezi, hogy az eredmények pozitív és arányos növekedése közelebb kerül a várt értékhez. Példaként nézzük meg annak a valószínűségét, hogy egy hatoldalú kocka háromszor dobjon. A kapott várható érték messze van az átlagos értéktől. Ha pedig többször dobunk egy kockával, akkor az átlagos eredményt közelebb kapjuk a várható értékhez (ez ebben az esetben 3.5). 

12. Melyek a normális eloszlás tulajdonságai?

Gauss-eloszlásként is ismert, a normál eloszlás azokra az adatokra vonatkozik, amelyek szimmetrikusak az átlaggal, és az átlagtól távoli adatok ritkábban fordulnak elő. Grafikus formában harang alakú görbeként jelenik meg, amely a tengelyek mentén szimmetrikus.

A normál eloszlás tulajdonságai:

  • Szimmetrikus – Az alak a paraméterértékek alakjával együtt változik
  • Unimodális – Csak egy üzemmódja van.
  • Átlag – a központi tendencia mértéke
  • Központi tendencia – az átlag, a medián és a módusz a középpontban van, ami azt jelenti, hogy mindegyik egyenlő, és a görbe tökéletesen szimmetrikus a felezőponton. 

13. Hogyan jellemezné a „p-értéket”?

A statisztikában a P-érték a hipotézisvizsgálat során kerül kiszámításra, és ez egy olyan szám, amely az adatok véletlenszerű előfordulásának valószínűségét jelzi. Ha egy p-érték 0.5 és kisebb, mint az alfa, akkor azt a következtetést vonhatjuk le, hogy 5% a valószínűsége annak, hogy a kísérleti eredmények véletlenül adódnak, vagy mondhatni, az esetek 5% -a, akkor ezeket az eredményeket véletlenül figyelhetjük meg . 

14. Hogyan számítható ki a p-érték MS Excel segítségével?

Az MS Excelben a p-érték kiszámításához használt képlet:

 = tdist (x, szabadságfok, farok)

A p-érték tizedesjegyben van kifejezve az Excelben. Itt vannak a kiszámításának lépései -

  • Keresse meg az Adatok lapot 
  • Az Elemzés lapon kattintson az adatelemzés ikonra 
  • Válassza a Leíró statisztikák lehetőséget, majd kattintson az OK gombra
  • Válassza ki a megfelelő oszlopot
  • Adja meg a megbízhatósági szintet és az egyéb változókat 

15. Milyen típusú torzításokkal találkozhat a mintavétel során?

A mintavételi torzítás akkor fordul elő, ha egy vizsgálat vagy felmérés során hiányzik az adatminták tisztességes reprezentációja. Az elfogultság hat fő típusa, amelyekkel a mintavétel során találkozhatunk:

  • Undercoverage torzítás
  • Megfigyelői elfogultság
  • A túlélési elfogultság
  • Önkiválasztás/Önkéntes válasz torzítás
  • Emlékezzen Bias
  • Kizárási elfogultság

16. Mi az a cseresznyeszedés, P-hackelés és jelentőséghajszolás?

A cseresznyeszedés olyan gyakorlatként definiálható a statisztikában, ahol csak azt az információt választják ki, amely egy bizonyos állítást alátámaszt, és figyelmen kívül hagy minden olyan állítást, amely megcáfolja a kívánt következtetést.

A P-hacking olyan technikára utal, amelyben az adatgyűjtést vagy -elemzést addig manipulálják, amíg olyan jelentős mintákat nem találnak, amelyeknek nincs mögötte semmilyen hatása. 

A szignifikáns hajszát Data Dredging, Data Fishing vagy Data Snooping néven is ismerik. A jelentéktelen eredmények jelentésére utal, mintha csaknem jelentősek lennének. 

17. Mi a különbség az I. és a II. típusú hibák között?

1-es típusú hiba akkor fordul elő, ha a nullhipotézist akkor is elutasítják, ha igaz. Hamis pozitív néven is ismert.

2-es típusú hiba akkor fordul elő, ha a nullhipotézist nem sikerül elutasítani, még akkor sem, ha hamis. Hamis negatívként is ismert.

18. Mi a statisztikai kölcsönhatás?

A statisztikai interakció arra a jelenségre utal, amely akkor következik be, amikor egy bemeneti változó hatása befolyásolja a kimeneti változót. Egy valós példa a cukor hozzáadásának kölcsönhatása a tea keveréséhez. A két változó egyike sem befolyásolja az édességet, de e két változó kombinációja igen. 

19. Mondjon példát egy nem Gauss-eloszlású adathalmazra?

A nem Gauss-eloszlás gyakori előfordulás a statisztika számos folyamatában. Ez akkor fordul elő, ha az adatok természetesen nem normális eloszlást követnek, és az adatok a grafikon egyik vagy másik oldalán vannak összegyűjtve. Például a baktériumok növekedése nem Gauss-eloszlást vagy exponenciális természetes eloszlást és Weibull-eloszlást követ. 

20. Mi a binomiális eloszlási képlet?

A binomiális eloszlási képlet a következő:

b(x; n, P) = nCx * Px * (1 – P)n – x

Ahol:

b = binomiális valószínűség

x = a „sikerek” teljes száma (megfelelt vagy sikertelen, fej vagy farok stb.)

P = egyéni próba sikerének valószínűsége

n = a kísérletek száma

21. Milyen kritériumoknak kell megfelelniük a binomiális eloszlásoknak?

Íme a három fő kritérium, amelynek a binomiális eloszlásoknak meg kell felelniük -

  • A megfigyelési kísérletek számát rögzíteni kell. Ez azt jelenti, hogy csak akkor lehet megtalálni valaminek a valószínűségét, ha azt csak bizonyos számú alkalommal végezzük el.
  • Minden vizsgálatnak függetlennek kell lennie. Ez azt jelenti, hogy a kísérletek egyike sem befolyásolhatja más kísérletek valószínűségét.
  • A siker valószínűsége minden kísérlet során ugyanaz marad. 

22. Mi a lineáris regresszió? 

A statisztikában a lineáris regresszió egy olyan megközelítés, amely egy vagy több magyarázó változó és egy eredményváltozó közötti kapcsolatot modellezi. Például a lineáris regresszió felhasználható a különböző előrejelző változók, például az életkor, a nem, a genetika és a diéta közötti kapcsolat számszerűsítésére vagy modellezésére a magasságra, az eredményváltozókra. 

23. Milyen feltételezések szükségesek a lineáris regresszióhoz?

A lineáris regresszió négy fő feltételezése a következő:

  • Lineáris kapcsolat van a prediktor (független) változók és az eredmény (függő) változó között. Ez azt jelenti, hogy X és Y átlaga közötti kapcsolat lineáris.
  • The errors are normally distributed with no correlation between them. This process is known as Autocorrelation. 
  • A prediktor változók között nincs korreláció. Ezt a jelenséget multikollinearitásnak nevezik.
  • Az eredmény- vagy válaszváltozó eltérése a független vagy előrejelző változók minden értékénél azonos. Az egyenlő szórás feltételezésének ezt a jelenségét homoszkedaszticitásnak nevezik. 

24. Melyek az alacsony és nagy előfeszítésű gépi tanulási algoritmusok?

Néhány széles körben használt alacsony és nagy előfeszítésű gépi tanulási algoritmus:

Alacsony torzítás - Döntésfák, Támogató vektorgépek, k-Legközelebbi szomszédok stb.

Magas torzítás - Lineáris regresszió, logisztikai regresszió, lineáris diszkriminancia analízis stb. 

25. Mikor kell t-próbát használni a z-próbával szemben?

A z-próbát a normál eloszlású statisztikák hipotézisvizsgálatára használják. A populációs variancia meghatározására szolgál abban az esetben, ha a minta nagy. 

A t-próbát t-eloszlással használják, és a populáció variancia meghatározására használják, ha kicsi a minta. 

Abban az esetben, ha a minta mérete nagy vagy n>30, z-próbát alkalmazunk. A T-tesztek akkor hasznosak, ha a minta mérete kicsi vagy n<30.

26. Mi az egyenlet az átlagok és az arányok konfidencia intervallumaira?

Az átlag konfidenciaintervallumának kiszámításához a következő egyenletet használjuk:

n > 30 esetén

Használja a Z táblát a normál normál eloszláshoz.

n<30 esetén

Használja a t táblázatot, ahol df=n-1

A népességarány bizalmi intervalluma –

27. Mi az empirikus szabály?

A statisztikában az empirikus szabály kimondja, hogy a normál eloszlásban minden adat az átlag három szórása közé esik. 68–95–99.7 szabályként is ismert. Az empirikus szabály szerint a normál eloszlású értékek százalékos aránya a 68%, 95% és 99.7% szabályt követi. Más szóval, az értékek 68%-a az átlag egy szórására, 95%-a két szórásra, 99.75 pedig az átlag három szórására esik.

28. Miben hasonlítanak a bizalmi tesztek és a hipotézis tesztek? Miben különböznek?

A bizalmi tesztek és a hipotézistesztek egyaránt a statisztikák alapját képezik. 

A konfidenciaintervallum azért fontos a kutatásban, hogy szilárd alapot nyújtson a kutatási becslésekhez, különösen az orvosi kutatásban. A konfidenciaintervallum olyan értéktartományt biztosít, amely segít az ismeretlen paraméter rögzítésében. 

A konfidencia intervallumot ezzel a képlettel számíthatjuk ki:

A hipotézis tesztelése egy kísérlet vagy megfigyelés tesztelésére szolgál, és annak meghatározására, hogy az eredmények nem véletlenül vagy szerencséből származtak-e az alábbi képlet segítségével, ahol a „p” valamilyen paraméter. 

A bizalom- és hipotézistesztelés következtetési technikák, amelyeket egy paraméter becslésére vagy egy hipotézis érvényességének tesztelésére használnak az adott adatkészletből vett minta alapján. Míg a konfidenciaintervallum egy értéktartományt biztosít a paraméter pontosságának pontos becsléséhez, a hipotézisek tesztelése megmutatja, hogy mennyire biztosak abban, hogy pontatlanul vonunk le következtetéseket egy paraméterrel kapcsolatban a mintából. Mindkettő használható a populációs paraméterek párhuzamos következtetésére. 

Ha a konfidenciaintervallumban 0-t veszünk, az azt jelzi, hogy a minta és a sokaság között nincs különbség. Ha a hipotézisvizsgálatból alfa-nál magasabb p-értéket kapunk, az azt jelenti, hogy nem utasítjuk el a bullhipotézist.

29. Milyen általános feltételeknek kell teljesülniük ahhoz, hogy a centrális határérték tétel teljesüljön?

Itt vannak azok a feltételek, amelyeknek teljesülniük kell ahhoz, hogy a centrális határérték tétel érvényesüljön –

  • Az adatoknak követniük kell a véletlenszerűsítési feltételt, ami azt jelenti, hogy véletlenszerűen kell mintát venni.
  • A függetlenségi feltételezések azt írják elő, hogy a mintaértékeknek függetleneknek kell lenniük egymástól.
  • A mintaméreteknek nagynak kell lenniük. Egyenlőnek vagy nagyobbnak kell lenniük 30-nál ahhoz, hogy a CLT-t megtarthassák. Nagy mintaméret szükséges ahhoz, hogy a CLT pontossága igaz legyen. 

30. Mi az a véletlenszerű mintavétel? Mondjon néhány példát néhány véletlenszerű mintavételi technikára!

A véletlenszerű mintavétel olyan mintavételi módszer, amelyben minden minta egyenlő valószínűséggel kerül kiválasztásra mintaként. Valószínűségi mintavételnek is nevezik.

Nézzük meg a véletlenszerű mintavételi technikák négy fő típusát –

  • Egyszerű véletlenszerű mintavételi technika – Ebben a technikában egy mintát véletlenszerűen választanak ki véletlenszerűen generált számok felhasználásával. Szükség van egy mintavételi keretre a sokaság tagjainak listájával, amelyet 'n' jelöl. Az Excel használatával véletlenszerűen generálhat egy számot minden egyes szükséges elemhez.
  • Szisztematikus véletlenszerű mintavételi technika – Ez a technika nagyon elterjedt és könnyen használható a statisztikákban. Ebben a technikában minden k-dik elem mintavételezésre kerül. Például egy elemet veszünk a mintából, majd a következőt, miközben kihagyjuk az előre meghatározott mennyiséget vagy „n”-t. 

Egy mintavételi keretben ossza el az N keret méretét a minta méretével (n), hogy megkapja a „k” indexszámot. Ezután válassza ki minden k-dik elemet a minta létrehozásához. 

  • Cluster Random Sampling technika – Ebben a technikában a sokaságot klaszterekre vagy csoportokra osztják oly módon, hogy minden klaszter a sokaságot reprezentálja. Ezt követően véletlenszerűen kiválaszthatja a fürtöket a mintavételhez.  
  • Rétegzett véletlenszerű mintavételi technika – Ebben a technikában a sokaságot olyan csoportokra osztják, amelyek hasonló jellemzőkkel rendelkeznek. Ezután minden csoportból véletlenszerű mintát lehet venni annak biztosítására, hogy a különböző szegmensek egyformán legyenek képviselve egy populáción belül. 

31. Mi a különbség a populáció és a minta között az inferenciális statisztikákban?

A következtetési statisztikákban a sokaság arra a teljes csoportra vonatkozik, amelyből mintát veszünk, és következtetések levonására használjuk. A minta viszont egy meghatározott csoport, amelyből adatokat veszünk, és ezeket az adatokat a statisztikák kiszámításához használjuk. A minta mérete mindig kisebb, mint a populációé. 

32. Mik azok a leíró statisztikák?

A leíró statisztikát egy vizsgálatban vagy kísérletben szereplő adathalmaz alapvető jellemzőinek összegzésére használjuk. Három fő típusa van - 

  • Eloszlás – a válaszok gyakoriságára utal.
  • Központi tendencia – az egyes válaszok mértékét vagy átlagát adja meg.
  • Variability – az adatkészlet szórását mutatja.

33. Mik azok a mennyiségi adatok és a minőségi adatok?

A kvalitatív adatok az adatok jellemzőinek leírására szolgálnak, és kategoriális adatokként is ismertek. Például hányféle. A kvantitatív adatok számértékek vagy számok mértéke. Például mennyit vagy milyen gyakran. Numerikus adatokként is ismert.

34. Hogyan számítsuk ki a tartományt és az interkvartilis tartományt?

A tartomány a legmagasabb és a legalacsonyabb érték közötti különbség, míg az Interkvartilis tartomány a felső és az alsó medián különbsége.  

Tartomány (X) = Max (X) – Min (X)

IQR = Q3 – Q1

Itt a Q3 a harmadik kvartilis (75 százalékos) 

Itt a Q1 az első kvartilis (25 százalékos)

35. Mit jelent a szórás?

A szórás az értékek szórásának változását adja meg egy adathalmazban. Az egyes megfigyelések vagy adatpontok átlagtól való eltérését jelzi.

(σ) = √(∑(x-µ)2/n)

Ahol a szórás a szórás négyzete.

36. Mi a kapcsolat az átlag és a medián között normális eloszlásban?

Normális eloszlásban az átlag és a medián egyenlő. 

37. Mi a balra ferde eloszlás és a jobbra ferde eloszlás?

A balra ferde eloszlásban a bal farok hosszabb, mint a jobb oldal.  

Átlag < medián < mód

A jobbra ferde eloszlásnál a jobb farok hosszabb. Pozitív-ferde eloszlásnak is nevezik.

Módus < medián < átlag

38. Hogyan alakítsuk át a normál eloszlást standard normális eloszlássá?

A normál eloszlás bármely (x) pontja átalakítható standard normál eloszlásúvá (Z) ezzel a képlettel:

Z(standardizált) = (x-µ) / σ

Itt egy adott x érték esetén Z azt jelzi, hogy x hány szórással van eltérve x összes értékének átlagától.

39. Mit lehet kezdeni egy kiugró értékkel?

A kiugró értékek befolyásolják az A/B tesztelést, és a helyzetnek vagy az adatkészlet követelményeinek megfelelően eltávolíthatók vagy megtarthatók. 

Íme néhány módszer az adatok kiugró értékeinek kezelésére –

  • Szűrje ki a kiugró értékeket, különösen akkor, ha rengeteg adatunk van.
  • Ha egy adatpont hibás, a legjobb a kiugró értékek eltávolítása.
  • Alternatív megoldásként két lehetőség is biztosítható – egy kiugró értékekkel és egy anélkül.
  • A teszt utáni elemzés során a kiugró értékek eltávolíthatók vagy módosíthatók. Módosításuk legjobb módja az adathalmaz levágása.
  • Ha sok a kiugró érték, és az eredmények kritikusak, akkor a legjobb a kiugró értékek értékét más változókra módosítani. Módosíthatók olyan értékre, amely az adatkészletet reprezentálja.
  • Ha a kiugró értékeknek van jelentésük, akkor figyelembe vehetők, különösen enyhe kiugró értékek esetén. 

40. Hogyan lehet észlelni a kiugró értékeket?

A kiugró értékek kimutatásának legjobb módja a grafikus eszközök. Ezen túlmenően a kiugró értékek kimutathatók statisztikai módszerek használatával is, például Excel, Python, SAS stb. A kiugró értékek észlelésének legnépszerűbb grafikus módjai közé tartozik a box plot és a scatter plot. 

41. Miért van szükség mintastatisztikákra?

A statisztikai mintavételre akkor kerül sor, ha a populáció paraméterei nem ismertek, különösen akkor, ha a populáció mérete túl nagy.

42. Mi a kapcsolat a standard hiba és a hibahatár között?

Hibahatár = Kritikus érték X A sokaság szórása 

és a

Hibahatár = Kritikus érték X A minta standard hibája.

A hibahatár a standard hibával nő. 

43. Mekkora az aránya azoknak a konfidenciaintervallumoknak, amelyek nem tartalmazzák a populációs paramétert?

Az alfa az a valószínűség egy konfidenciaintervallumban, amely nem tartalmazza a populációs paramétert. 

α = 1 – CL

Az Alfát általában arányban fejezik ki. Például, ha a megbízhatósági szint 95%, akkor az alfa 1-0.95 vagy 0.05 lenne. 

44. Mi a ferdeség?

A ferdeség az eloszlás szimmetriájának mértékét adja meg. Ha egy eloszlás nem normális vagy aszimmetrikus, akkor ferde. Egy eloszlás pozitív vagy negatív ferdeséget mutathat, ha a jobb oldali farok hosszabb, a bal oldali farok pedig hosszabb. 

45. Mit jelent a kovariancia?

A statisztikában a kovariancia a két valószínűségi változó közötti asszociáció mértéke a cikluson belüli megfelelő átlaguk alapján. 

46. ​​Mi a zavaró változó?

A statisztikában zavaró változó az „extra” vagy „harmadik” változó, amely mind a függő, mind a független változóhoz kapcsolódik, és téves becslést adhat, ami haszontalan eredményeket ad. 

Például, ha a súlygyarapodás hatását vizsgáljuk, akkor az edzés hiánya lesz a független változó, a súlygyarapodás pedig a függő változó. Ebben az esetben az élelmiszer-fogyasztás mennyisége lehet a zavaró változó, mivel elfedi vagy torzítja a vizsgálatban szereplő többi változó hatását. Az időjárás hatása egy másik zavaró változó lehet, amely később a kísérlet megtervezését okozhatja. 

47. Mit jelent, ha egy modell heteroszkedasztikus?

Egy modellről azt mondjuk, hogy heteroszkedasztikus, ha a hibák eltérései inkonzisztensnek bizonyulnak. Gyakran két formában fordul elő - feltételes és feltétel nélküli.

48. Mi a szelekciós torzítás, és miért fontos?

A szelekciós torzítás egy olyan kifejezés a statisztikákban, amelyek azt a helyzetet jelölik, amikor a kiválasztott egyének vagy egy csoport egy vizsgálaton belül olyan mértékben különböznek az érdeklődésre számot tartó sokaságtól, hogy szisztematikus hibát adnak az eredményben.

A szelekciós torzítás jellemzően kétváltozós tesztekkel azonosítható, eltekintve a többszörös regresszió egyéb módszereitől, például a logisztikus regressziótól.

Kulcsfontosságú a szelekciós torzítás megértése és azonosítása, hogy elkerüljük az eredmények torzulását a vizsgálat során. A szelekciós torzítás téves meglátásokhoz vezethet egy adott populációcsoportról egy tanulmányban.

A kiválasztási torzítás különböző típusai a következők:

  • Mintavételi torzítás – Ezt gyakran nem véletlenszerű mintavétel okozza. A legjobb módja annak, hogy ezt leküzdjük, ha olyan mintából merítünk, amely nem önválogató.
  • Résztvevők lemorzsolódása – A résztvevők lemorzsolódása egy vizsgálatból a résztvevők lemorzsolódása. Ez elkerülhető, ha követjük a lemorzsolódó résztvevőket, és megállapítjuk, hogy a lemorzsolódás oka a résztvevők közötti közös tényező jelenléte vagy valami más.
  • Expozíció – A helytelen értékelés vagy az expozíció és a hatás közötti belső érvényesség hiánya miatt következik be egy populációban.
  • Adatok – Ez magában foglalja az adatok kotrását és a cseresznyeszedést, és akkor fordul elő, ha nagyszámú változó van jelen az adatokban, amitől még a hamis eredmények is jelentősnek tűnnek. 
  • Időintervallum – Ez egy mintavételi hiba, amely akkor fordul elő, ha a megfigyeléseket csak egy bizonyos időszakból választják ki. Például az eladások elemzése a karácsonyi szezonban.
  • Megfigyelő kiválasztása – Ez egyfajta eltérés vagy észlelési torzítás, amely egy folyamat megfigyelése során lép fel, és azt diktálja, hogy ahhoz, hogy az adatok megfigyelhetők legyenek, kompatibilisnek kell lenniük az azokat megfigyelő élettel.

49. Mit jelent az autokorreláció?

Az autokorreláció a két változó közötti korreláció mértékének reprezentációja egy adott idősoron belül. Ez azt jelenti, hogy az adatok oly módon korrelálnak, hogy a jövőbeli eredmények a múltbeli eredményekhez kapcsolódnak. Az autokorreláció kevésbé pontosítja a modellt, mivel a hibák is szekvenciális mintát követnek. 

50. Mit jelent a Kísérletek tervezése?

A Kísérletek tervezése vagy a DOE egy olyan szisztematikus módszer, amely megmagyarázza a folyamatot befolyásoló tényezők és annak kimenete közötti kapcsolatot. Arra használják, hogy a bemeneti változók megváltoztatásával következtessünk és előre jelezzünk egy eredményt. 

51. Mi a Bessel-féle korrekció?

Bessel korrekciója azt javasolja, hogy n helyett n-1-et használjunk a szórás képletében. Segít az eredmények pontosságának növelésében, miközben egy adatmintát elemez, hogy általánosabb következtetéseket vonjon le.

52. Milyen típusú változókat használunk a Pearson-féle korrelációs együtthatóhoz?

A Pearson-féle korrelációs együtthatóhoz használt változóknak (mind a függő, mind a független változóknak) kvantitatívaknak kell lenniük. Csak két változó közötti lineáris kapcsolatot teszteli.

53. Mire használják a Hash táblákat a statisztikákban?

A statisztikákban a hash táblákat a kulcsértékek vagy kulcspárok strukturált tárolására használják. Hash függvényt használ, hogy egy indexet számítson ki egy sor tömbbe, amelyben a kívánt elemek kereshetők. 

54. A szimmetrikus eloszlásnak unimodálisnak kell lennie?

A szimmetrikus eloszlásnak nem kell feltétlenül unimodálisnak lennie, lehetnek ferde vagy aszimmetrikusak. Lehetnek bimodálisak két csúccsal vagy multimodálisak több csúccsal. 

55. Mi az előnye a dobozos parcellák használatának?

A Boxplot két vagy több adatkészlet vizuálisan hatékony ábrázolása, és megkönnyíti a hisztogramok csoportjainak gyors összehasonlítását.

56. Mit jelent a TF/IDF vektorizálás?

A TF/IDF a Term Frequency – Inverse Document Frequency (Inverz dokumentumgyakoriság) rövidítése, és egy numerikus mérőszám, amelyet széles körben használnak a statisztikákban az összegzés során. Egy szó vagy kifejezés fontosságát tükrözi a dokumentumban. A dokumentumot gyűjteménynek vagy korpusznak nevezzük.

57. Mit jelent az érzékenység a statisztikában?

Az érzékenység az osztályozó pontosságára utal egy tesztben. Kiszámítható a következő képlettel:

Érzékenység = Megjósolt valós események/Események teljes száma

58. Mi a különbség az első kvartilis, a második kvartilis és a harmadik kvartilis között?

Az első kvartilist Q1 jelöli, és ez az adatsor alsó felének mediánja.

A második kvartilist Q2 jelöli, és az adathalmaz mediánja.

A harmadik kvartilist Q3 jelöli, és az adathalmaz felső felének mediánja.

Az adatkészlet körülbelül 25%-a a Q3 felett, 75%-a a Q3 alatt, 50%-a pedig a Q2 alatt van. A Q1, Q2 és Q3 a 25th, 50én, és 75th percentilis.

59. Mi a kurtosis?

A kurtózis az eloszlás egyik végében jelenlévő szélsőértékek mértéke vagy a frekvenciaeloszlás csúcsai a többihez képest. A standard normál eloszlás 3-as gördüléssel rendelkezik, míg a szimmetria és a gördülés -2 és +2 közötti értékei normálisnak és elfogadhatónak tekinthetők. A magas szintű kurtózissal rendelkező adatkészletek arra utalnak, hogy vannak kiugró értékek. A probléma megoldásához adatokat kell hozzáadni vagy el kell távolítani a kiugró értékeket. Az alacsony kurtózisszintű adatkészletek világos farokkal rendelkeznek, és hiányoznak a kiugró értékek.

60. Mi az a haranggörbe eloszlás?

A haranggörbe eloszlást a harang alakja ábrázolja, és a normál eloszlást jelzi. Ez sok helyzetben természetesen előfordul, különösen a pénzügyi adatok elemzésekor. A görbe teteje az adatok módusát, átlagát és mediánját mutatja, és tökéletesen szimmetrikus. A harang alakú görbe fő jellemzői:

  • Az empirikus szabály szerint az adatok megközelítőleg 68%-a az átlag egy szórásán belül van mindkét irányban.
  • Az adatok körülbelül 95%-a két szórás és
  • Az adatok körülbelül 99.7%-a mindkét irányban három szórásra esik. 

Ezek a Statisztikai interjúkérdések lefedik a statisztika alapjait, és megkönnyítik a hallgatók és a szakemberek számára, hogy tisztázzák az alapjaikat ebben a témában. Néhány iparágvezető statisztikával foglalkozó online kurzushoz irány a Nagyszerű Tanulási Akadémia és készségszinten ezen a területen. 

0 Source: https://www.mygreatlearning.com/blog/statistics-interview-questions/

Időbélyeg:

Még több GreatLearning