Neuauflage von Plato

Verfolger: 0

Wichtige Statistiken, die Data Scientists wissen müssen

Stichworte: Bayes-Theorem, Daten Wissenschaft, Wahrscheinlichkeit, Statistiken

Mehrere grundlegende statistische Konzepte müssen von jedem Datenwissenschaftler gut verstanden werden – vom Enthusiasten bis zum Profi. Hier stellen wir Code-Snippets in Python bereit, um das Verständnis zu verbessern und Ihnen wichtige Tools zur Verfügung zu stellen, die einen frühen Einblick in Ihre Daten ermöglichen.

Bemerkungen

By Lekshmi S. Sunil, IIT Indore '23 | GHC '21 Gelehrter.

Durch statistische Analysen können wir aus den vorliegenden Daten wertvolle Erkenntnisse ableiten. Ein fundiertes Verständnis der wichtigen statistischen Konzepte und Techniken ist unbedingt erforderlich, um die Daten mit verschiedenen Werkzeugen zu analysieren.

Bevor wir auf die Details eingehen, werfen wir einen Blick auf die Themen, die in diesem Artikel behandelt werden:

Deskriptive vs. inferenzielle Statistik
Datentypen
Wahrscheinlichkeit & Satz von Bayes
Maße der zentralen Tendenz
Schiefe
Kurtosis
Dispersionsmaße
Kovarianz
Korrelation
Wahrscheinlichkeitsverteilungen
Hypothesentest
Regression

Deskriptive vs. inferenzielle Statistik

Statistik als Ganzes beschäftigt sich mit der Sammlung, Organisation, Analyse, Interpretation und Präsentation von Daten. Innerhalb der Statistik gibt es zwei Hauptzweige:

Beschreibende Statistik: Dies beinhaltet die Beschreibung der Datenmerkmale, das Organisieren und Präsentieren der Daten entweder visuell durch Diagramme/Grafiken oder durch numerische Berechnungen unter Verwendung von Maßen der zentralen Tendenz, Variabilität und Verteilung. Bemerkenswert ist, dass Schlussfolgerungen auf Basis bereits bekannter Daten gezogen werden.
Inferenzstatistik: Dies beinhaltet das Ziehen von Schlussfolgerungen und Verallgemeinerungen über größere Populationen unter Verwendung von Stichproben, die von ihnen entnommen wurden. Daher sind komplexere Berechnungen erforderlich. Die endgültigen Ergebnisse werden mit Techniken wie Hypothesentests, Korrelations- und Regressionsanalysen erzeugt. Die prognostizierten zukünftigen Ergebnisse und die gezogenen Schlussfolgerungen gehen über das Niveau der verfügbaren Daten hinaus.

Datentypen

Um eine ordnungsgemäße Explorative Datenanalyse (EDA) unter Anwendung der am besten geeigneten statistischen Techniken durchführen zu können, müssen wir verstehen, an welcher Art von Daten wir arbeiten.

Kategoriale Daten

Kategoriale Daten stellen qualitative Variablen wie Geschlecht, Blutgruppe, Muttersprache usw. einer Person dar. Kategoriale Daten können auch in Form von Zahlenwerten ohne mathematische Bedeutung vorliegen. Wenn beispielsweise Geschlecht die Variable ist, kann eine Frau durch 1 und ein Mann durch 0 dargestellt werden.

Nenndaten: Werte kennzeichnen die Variablen, und es gibt keine definierte Hierarchie zwischen den Kategorien, dh es gibt keine Reihenfolge oder Richtung – zum Beispiel Religion, Geschlecht usw. Nominalskalen mit nur zwei Kategorien werden als „dichotom“ bezeichnet.
Ordnungsdaten: Es besteht eine Ordnung oder Hierarchie zwischen den Kategorien – zum Beispiel Qualitätsbewertungen, Bildungsniveau, Noten von Schülerbriefen usw.

Numerische Daten

Numerische Daten stellen quantitative Variablen dar, die nur in Zahlen ausgedrückt werden. Zum Beispiel die Größe, das Gewicht usw. einer Person.

Diskrete Daten: Werte sind zählbar und sind ganze Zahlen (meistens ganze Zahlen). Zum Beispiel die Anzahl der Autos auf einem Parkplatz, die Anzahl der Länder usw.
Kontinuierliche Daten: Beobachtungen können gemessen, aber nicht gezählt werden. Daten nehmen jeden Wert innerhalb eines Bereichs an – zum Beispiel Gewicht, Größe usw. Kontinuierliche Daten können weiter unterteilt werden in Intervalldaten (geordnete Werte mit den gleichen Unterschieden, aber keine echte Null) und Verhältnisdaten (geordnete Werte mit den gleichen Unterschieden zwischen ihnen und der wahren Null existiert).

Wahrscheinlichkeit & Satz von Bayes

Die Wahrscheinlichkeit ist das Maß für die Wahrscheinlichkeit, dass ein Ereignis eintritt.

P(A) + P(A') = 1
P(A∪B) = P(A) + P(B) − P(A∩B)
Unabhängige Ereignisse: Zwei Ereignisse sind unabhängig, wenn das Eintreten des einen die Eintrittswahrscheinlichkeit des anderen nicht beeinflusst. P(A∩B) = P(A)P(B) wobei P(A) != 0 und P(B) != 0.
Sich gegenseitig ausschließende Ereignisse: Zwei Ereignisse schließen sich gegenseitig aus oder sind getrennt, wenn sie nicht beide gleichzeitig auftreten können. P(A∩B) = 0 und P(A∪B) = P(A)+P(B).
Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines Ereignisses A, wenn bereits ein anderes Ereignis B eingetreten ist. Dies wird durch P(A|B) dargestellt. P(A|B) = P(A∩B)/P(B), wenn P(B)>0.
Satz von Bayes

Maße der zentralen Tendenz

Importieren Sie das Statistikmodul.

Bedeuten: Durchschnittswert des Datensatzes.

numpy.mean( ) kann auch verwendet werden.

Median: Mittelwert des Datensatzes.

numpy.median( ) kann auch verwendet werden.

Model: Häufigster Wert im Datensatz.

Wann werden Mittelwert, Median und Modus verwendet?

Beziehung zwischen Mittelwert, Median und Modus: Modus = 3 Mittelwert — 2 Mittelwert

Schiefe

Ein Maß für Symmetrie, oder genauer gesagt, Unsymmetrie (Asymmetrie).

Normal-/symmetrische Verteilung: Modus = Median = Mittelwert
Positiv (rechts) schiefe Verteilung: Modus < Median < Mittelwert
Negativ (links) schiefe Verteilung: Mittelwert < Median < Modus

Kurtosis

Ein Maß dafür, ob die Daten relativ zu einer Normalverteilung stark oder leicht tailliert sind, dh es misst die „Schwanz“ oder „Spitze“ einer Verteilung.

Leptokurtic – positive Kurtosis
Mesokurtik – Normalverteilung
Platykurtic – negative Kurtosis

Schiefe und Kurtosis mit Python.

Dispersionsmaße

Beschreibt die Streuung/Streuung von Daten um einen zentralen Wert.

Reichweite: Die Differenz zwischen dem größten und dem kleinsten Wert im Dataset.

Quartilabweichung: Die Quartile eines Datensatzes teilen die Daten in vier gleiche Teile – das erste Quartil (Q1) ist die mittlere Zahl zwischen der kleinsten Zahl und dem Median der Daten. Das zweite Quartil (Q2) ist der Median des Datensatzes. Das dritte Quartil (Q3) ist die mittlere Zahl zwischen dem Median und der größten Zahl. Quartilabweichung ist Q = ½ × (Q3 – Q1)

Interquartilbereich: IQR = Q3 — Q1

Abweichung: Die durchschnittliche quadrierte Differenz zwischen jedem Datenpunkt und dem Mittelwert. Misst die Verteilung des Datasets relativ zum Mittelwert.

Standardabweichung: Quadratwurzel der Varianz.

Varianz und Standardabweichung mit Python.

Kovarianz

Es ist die Beziehung zwischen einem Paar von Zufallsvariablen, bei der eine Änderung einer Variablen eine Änderung einer anderen Variable bewirkt.

Negative, null und positive Kovarianz.

Kovarianzmatrix und ihre Heatmap-Darstellung mit Python.

Korrelation

Sie zeigt, ob und wie stark ein Variablenpaar miteinander verbunden ist.

Korrelationsmatrix, die dieselben Daten verwendet, die für die Kovarianz verwendet wurden.

Kovarianz vs. Korrelation.

Wahrscheinlichkeitsverteilungen

Es gibt zwei große Arten von Wahrscheinlichkeitsverteilungen – diskrete und kontinuierliche Wahrscheinlichkeitsverteilungen.

Diskrete Wahrscheinlichkeitsverteilung:

Bernoulli-Verteilung

Eine Zufallsvariable benötigt einen einzigen Versuch mit nur zwei möglichen Ergebnissen: 1 (Erfolg) mit Wahrscheinlichkeit p und 0 (Misserfolg) mit Wahrscheinlichkeit 1-p.

Binomialverteilung

Jeder Versuch ist unabhängig. Es gibt nur zwei mögliche Ergebnisse in einer Studie – entweder ein Erfolg oder ein Misserfolg. Es werden insgesamt n identische Versuche durchgeführt. Die Erfolgs- und Misserfolgswahrscheinlichkeit ist bei allen Versuchen gleich. (Tests sind identisch.)

Poisson-Verteilung

Misst die Wahrscheinlichkeit, dass eine bestimmte Anzahl von Ereignissen in einem bestimmten Zeitraum eintritt.

Kontinuierliche Wahrscheinlichkeitsverteilung:

Gleichmäßige Verteilung

Auch Rechteckverteilung genannt. Alle Ergebnisse sind gleich wahrscheinlich.

Normal- / Gaußsche Verteilung

Mittelwert, Median und Modus der Verteilung stimmen überein. Die Kurve der Verteilung ist glockenförmig und symmetrisch um die Linie x = μ. Die Gesamtfläche unter der Kurve beträgt 1. Genau die Hälfte der Werte befindet sich links von der Mitte und die andere Hälfte rechts.

Eine Normalverteilung unterscheidet sich stark von der Binomialverteilung. Wenn die Anzahl der Versuche jedoch gegen unendlich geht, sind die Formen ziemlich ähnlich.

Exponentialverteilung

Wahrscheinlichkeitsverteilung der Zeit zwischen Ereignissen in einem Poisson-Punkt-Prozess, dh einem Prozess, bei dem Ereignisse kontinuierlich und unabhängig mit konstanter Durchschnittsrate auftreten.

Hypothesentest

Betrachten wir zunächst den Unterschied zwischen der Nullhypothese und der Alternativhypothese.

Nullhypothese: Aussage über den Populationsparameter, die entweder für wahr gehalten wird oder zur Argumentation verwendet wird, es sei denn, sie kann durch Hypothesentests als falsch nachgewiesen werden.

Alternative Hypothese: Behauptung über die Population, die der Nullhypothese widerspricht und was wir schlussfolgern, wenn wir die Nullhypothese ablehnen.

Fehler Typ I: Ablehnung einer wahren Nullhypothese

Fehler Typ II: Nicht-Ablehnung einer falschen Nullhypothese

Signifikanzniveau (α): Wahrscheinlichkeit, die Nullhypothese abzulehnen, wenn sie wahr ist.

p-Wert: Wahrscheinlichkeit, dass die Teststatistik mindestens so extrem ist wie die beobachtete, vorausgesetzt, die Nullhypothese ist wahr.

Wenn p-Wert > α ist, verwerfen wir die Nullhypothese nicht.
Während p-Wert α ist, verwerfen wir die Nullhypothese und können schlussfolgern, dass wir ein signifikantes Ergebnis haben.

Beim statistischen Hypothesentest hat ein Ergebnis eine statistische Signifikanz, wenn es bei der Nullhypothese sehr unwahrscheinlich ist, dass es aufgetreten ist.

Kritischer Wert: Ein Punkt auf der Skala der Teststatistik, ab dem wir die Nullhypothese ablehnen. Sie hängt von einer Teststatistik ab, die für den Testtyp spezifisch ist, und dem Signifikanzniveau α, das die Sensitivität des Tests definiert.

Lineare Regression

Lineare Regression ist normalerweise der erste ML-Algorithmus, auf den wir stoßen. Es ist einfach und ihr Verständnis legt die Grundlage für andere fortschrittliche ML-Algorithmen.

Einfache lineare Regression

Linearer Ansatz zur Modellierung der Beziehung zwischen einer abhängigen Variablen und einer unabhängigen Variablen.

Wir müssen die Parameter finden, damit das Modell am besten zu den Daten passt. Die Regressionsgerade (dh die Linie mit der besten Anpassung) ist die Linie, für die der Fehler zwischen den vorhergesagten Werten und den beobachteten Werten minimal ist.