Viktig statistikdata Forskare behöver veta

Källnod: 1876637

Viktig statistikdata Forskare behöver veta

Flera grundläggande statistiska begrepp måste uppskattas väl av varje datavetare - från entusiasten till proffsen. Här tillhandahåller vi kodavsnitt i Python för att öka förståelsen för att ge dig nyckelverktyg som ger dig tidig insikt i dina data.


By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 Scholar.

Statistisk analys gör att vi kan härleda värdefulla insikter från de data som finns till hands. Ett bra grepp om viktiga statistiska begrepp och tekniker är absolut nödvändigt för att analysera data med olika verktyg.

Innan vi går in på detaljerna, låt oss ta en titt på de ämnen som tas upp i den här artikeln:

  • Beskrivande kontra slutledningsstatistik
  • Datatyper
  • Sannolikhet & Bayes sats
  • Centralmått
  • skevhet
  • Kurtosis
  • Åtgärder för spridning
  • Kovarians
  • Korrelation
  • Sannolikhetsfördelningar
  • Hypotesprovning
  • Regression

Beskrivande kontra slutledningsstatistik

Statistik som helhet handlar om insamling, organisation, analys, tolkning och presentation av data. Inom statistik finns det två huvudgrenar:

  1. Beskrivande statistik: Detta innebär att beskriva egenskaperna hos data, organisera och presentera data antingen visuellt genom diagram/grafer eller genom numeriska beräkningar med mått på central tendens, variabilitet och distribution. En anmärkningsvärd punkt är att slutsatser dras utifrån redan kända data.
  2. Inferentialstatistik: Detta innebär att dra slutsatser och göra generaliseringar om större populationer med hjälp av prover tagna från dem. Därför krävs mer komplicerade beräkningar. De slutliga resultaten produceras med hjälp av tekniker som hypotestestning, korrelation och regressionsanalys. Förutspådda framtida resultat och slutsatser som dras går utöver nivån på tillgängliga data.

Datatyper

För att utföra korrekt Exploratory Data Analysis (EDA) med de mest lämpliga statistiska teknikerna måste vi förstå vilken typ av data vi arbetar med.

  1. Kategoriska data

Kategoriska data representerar kvalitativa variabler som en individs kön, blodgrupp, modersmål etc. Kategoriska data är också i form av numeriska värden utan någon matematisk betydelse. Till exempel, om kön är variabeln, kan en kvinna representeras av 1 och manlig med 0.

  • Nominell data: Värden betecknar variablerna, och det finns ingen definierad hierarki mellan kategorierna, dvs. det finns ingen ordning eller riktning – till exempel religion, kön etc. Nominella skalor med endast två kategorier kallas "dikotom".
  • Ordinaldata: Ordning eller hierarki finns mellan kategorierna – till exempel kvalitetsbetyg, utbildningsnivå, studentbokstavsbetyg etc.
  1. Numerisk data

Numeriska data representerar kvantitativa variabler uttryckta endast i termer av siffror. Till exempel en individs längd, vikt etc.

  • Diskret data: Värden kan räknas och är heltal (oftast heltal). Till exempel antalet bilar på en parkeringsplats, antal länder etc.
  • Kontinuerlig data: Observationer kan mätas men kan inte räknas. Data antar vilket värde som helst inom ett intervall – till exempel vikt, höjd etc. Kontinuerliga data kan delas upp ytterligare i intervalldata (ordnade värden som har samma skillnader mellan dem men har ingen sann noll) och förhållandedata (ordnade värden som har samma skillnader mellan dem och sann noll finns).

Sannolikhet & Bayes sats

Sannolikhet är måttet på sannolikheten att en händelse inträffar.

  • P(A) + P(A') = 1
  • P(A∪B) = P(A) + P(B) − P(A∩B)
  • Oberoende händelser: Två händelser är oberoende om förekomsten av den ena inte påverkar sannolikheten för att den andra inträffar. P(A∩B) = P(A)P(B) där P(A) != 0 och P(B) != 0.
  • Ömsesidigt exklusiva händelser: Två händelser är ömsesidigt uteslutande eller osammanhängande om de inte båda kan inträffa samtidigt. P(A∩B) = 0 och P(A∪B) = P(A)+P(B).
  • Villkorlig sannolikhet: Sannolikhet för en händelse A, givet att en annan händelse B redan har inträffat. Detta representeras av P(A|B). P(A|B) = P(A∩B)/P(B), när P(B)>0.
  • Bayes sats

Centralmått

Importera statistikmodulen.

  • Betyda: Genomsnittligt värde för datasetet.

numpy.mean( ) kan också användas.

  • median: Mellanvärdet för datamängden.

numpy.median( ) kan också användas.

  • Mode: Det vanligaste värdet i datamängden.

När ska man använda medelvärde, median och läge?

Relation mellan medelvärde, median och läge: Läge = 3 median — 2 medelvärde

skevhet

Ett mått på symmetri, eller mer exakt, brist på symmetri (asymmetri).

  • Normal/symmetrisk fördelning: läge = median = medelvärde
  • Positivt (höger) sned fördelning: läge < median < medelvärde
  • Negativt (vänster) snedfördelning: medelvärde < median < läge

Kurtosis

Ett mått på om data är tungstjärtad eller lättsvansad i förhållande till en normalfördelning, dvs den mäter "svansheten" eller "toppheten" för en fördelning.

  • Leptokurtic – positiv kurtos
  • Mesokurtic – normalfördelning
  • Platykurtic – negativ kurtosis

Skevhet och kurtos med Python.

Åtgärder för spridning

Beskriver spridningen/spridningen av data kring ett centralt värde.

Räckvidd: Skillnaden mellan det största och det minsta värdet i datamängden.

Kvartilavvikelse: Kvartilerna i en datamängd delar upp data i fyra lika delar – den första kvartilen (Q1) är mitttalet mellan det minsta talet och medianen för datan. Den andra kvartilen (Q2) är medianen för datamängden. Den tredje kvartilen (Q3) är mitttalet mellan medianen och det största talet. Kvartilavvikelse är Q = ½ × (Q3 - Q1)

Interkvartilintervall: IQR = Q3 - Q1

Variation: Den genomsnittliga kvadratskillnaden mellan varje datapunkt och medelvärdet. Mäter hur spridd datauppsättningen är i förhållande till medelvärdet.

Standardavvikelse: Kvadratrot av varians.

Varians och standardavvikelse med Python.

Kovarians

Det är förhållandet mellan ett par slumpvariabler där en förändring i en variabel orsakar förändring i en annan variabel.

Negativ, noll och positiv kovarians.

Kovariansmatris och dess heatmap-representation med Python.

Korrelation

Den visar om och hur starkt ett par av variabler är relaterade till varandra.


Korrelationsmatris använder samma data som används för kovarians.

Kovarians vs. korrelation.

Sannolikhetsfördelningar

Det finns två breda typer av sannolikhetsfördelningar - diskreta och kontinuerliga sannolikhetsfördelningar.

Diskret sannolikhetsfördelning:

  • Bernoulli Distribution

En slumpvariabel tar ett enda försök med bara två möjliga utfall: 1 (framgång) med sannolikhet p och 0 (misslyckande) med sannolikhet 1-p.

  • Binomial distribution

Varje försök är oberoende. Det finns bara två möjliga utfall i ett försök - antingen en framgång eller ett misslyckande. Ett totalt antal n identiska försök genomförs. Sannolikheten för framgång och misslyckande är densamma för alla försök. (Försöken är identiska.)

  • Poisson-distribution

Mäter sannolikheten för att ett givet antal händelser ska inträffa under en viss tidsperiod.

Kontinuerlig sannolikhetsfördelning:

  • Jämn fördelning

Kallas även rektangulär fördelning. Alla utfall är lika sannolika.


  • Normal/Gaussisk distribution

Fördelningens medelvärde, median och läge sammanfaller. Fördelningskurvan är klockformad och symmetrisk kring linjen x = μ. Den totala arean under kurvan är 1. Exakt hälften av värdena är till vänster om mitten och den andra hälften till höger.

En normalfördelning skiljer sig mycket från binomialfördelning. Men om antalet försök närmar sig oändligheten kommer formerna att vara ganska lika.

  • Exponentiell distribution

Sannolikhetsfördelning av tiden mellan händelser i en Poisson-punktsprocess, dvs en process där händelser inträffar kontinuerligt och oberoende med en konstant medelhastighet.

Hypotesprovning

Låt oss först ta en titt på skillnaden mellan nollhypotesen och alternativhypotesen.

Nollhypotesen: Påstående om populationsparametern som antingen tros vara sann eller används för att lägga fram ett argument såvida det inte kan visas att det är felaktigt genom hypotestestning.

Alternativ hypotes: Påstående om populationen som strider mot nollhypotesen och vad vi kommer fram till om vi förkastar nollhypotesen.

Typ I fel: Förkastande av en sann nollhypotes

Typ II fel: Icke-förkastande av en falsk nollhypotes

Signifikansnivå (α): Sannolikhet att förkasta nollhypotesen när den är sann.

p-värde: Sannolikheten för att teststatistiken är minst lika extrem som den observerade givet att nollhypotesen är sann.

  • När p-värde > α misslyckas vi med att förkasta nollhypotesen.
  • Medan p-värde ≤ α förkastar vi nollhypotesen, och vi kan dra slutsatsen att vi har ett signifikant resultat.

Vid statistisk hypotesprövning har ett resultat statistisk signifikans när det är mycket osannolikt att det har inträffat givet nollhypotesen.

Kritiskt värde: En punkt på teststatistikens skala bortom vilken vi förkastar nollhypotesen. Det beror på en teststatistik, som är specifik för typen av test, och signifikansnivån, α, som definierar testets känslighet.

linjär regression

Linjär regression är vanligtvis den första ML-algoritmen som vi stöter på. Det är enkelt och att förstå det lägger grunden för andra avancerade ML-algoritmer.

Enkel linjär regression

Linjär metod för att modellera sambandet mellan en beroende variabel och en oberoende variabel.

Vi måste hitta parametrarna så att modellen bäst passar data. Regressionslinjen (dvs den bästa anpassningslinjen) är den linje som felet mellan de förutsagda värdena och de observerade värdena är minimum.

Regressionslinje.

Låt oss nu försöka implementera detta.

Multipel linjär regression

Linjär metod för att modellera sambandet mellan en beroende variabel och två eller flera oberoende variabler.

Ursprungliga. Skickas om med tillstånd.

Relaterat:

Källa: https://www.kdnuggets.com/2021/09/important-statistics-data-scientists.html

Tidsstämpel:

Mer från KDnuggets