
Als Student in einem Statistikkurs oder als professioneller Forscher müssen Sie wissen, wie man Inferenzstatistiken verwendet, um Daten zu analysieren und intelligente Entscheidungen zu treffen. Im Zeitalter von „Big Data“, in dem wir Zugang zu einer Vielzahl von Informationen haben, ist die Fähigkeit, aus Stichproben korrekte Rückschlüsse auf die Grundgesamtheit zu ziehen, entscheidend.
Mit Hilfe der Inferenzstatistik können Sie auf der Grundlage Ihrer Daten Rückschlüsse ziehen und Vorhersagen treffen, während die deskriptive Statistik die Eigenschaften einer Datensammlung zusammenfasst. Die deskriptive Statistik ist ein Bereich der Mathematik, der es uns ermöglicht, Trends und Muster in einer großen Anzahl von numerischen Daten zu erkennen.
In diesem Beitrag werden wir uns mit der Inferenzstatistik befassen, einschließlich der Frage, was sie ist, wie sie funktioniert und einiger Beispiele.
Definition der Inferenzstatistik
In der Inferenzstatistik werden statistische Verfahren eingesetzt, um Informationen aus einer kleineren Stichprobe zu extrapolieren und daraus Vorhersagen und Schlussfolgerungen für eine größere Grundgesamtheit zu ziehen.
Sie nutzt die Wahrscheinlichkeitstheorie und statistische Modelle zur Schätzung von Bevölkerungsparametern und zur Prüfung von Bevölkerungshypothesen auf der Grundlage von Stichprobendaten. Das Hauptziel der Inferenzstatistik besteht darin, anhand von Stichprobendaten Informationen über die gesamte Population zu liefern, um die gezogenen Schlussfolgerungen so genau und zuverlässig wie möglich zu machen.
Es gibt zwei Hauptanwendungen für die Inferenzstatistik:
- Bereitstellung von Bevölkerungsschätzungen.
- Testen von Theorien, um Schlussfolgerungen über Populationen zu ziehen.
Forscher können eine Population verallgemeinern, indem sie inferentielle Statistiken und eine repräsentative Stichprobe verwenden. Sie erfordert logisches Denken, um zu Schlussfolgerungen zu gelangen. Im Folgenden wird die Methode beschrieben, mit der man zu den Ergebnissen gelangt:
- Die zu untersuchende Population sollte als Stichprobe ausgewählt werden. Die Stichprobe sollte die Art und die Merkmale der Grundgesamtheit widerspiegeln.
- Inferenzstatistische Verfahren werden zur Analyse des Verhaltens der Stichprobe eingesetzt. Dazu gehören die Modelle, die für die Regressionsanalyse und die Hypothesenprüfung verwendet werden.
- Die Stichprobe des ersten Schritts wird verwendet, um Schlussfolgerungen zu ziehen. Schlussfolgerungen werden anhand von Annahmen oder Vorhersagen über die gesamte Population gezogen.
Arten der Inferenzstatistik
Inferenzstatistiken werden in zwei Kategorien unterteilt:
- Hypothesentests.
- Regressionsanalyse.
Forscher setzen diese Methoden häufig ein, um auf der Grundlage kleiner Stichproben Ergebnisse auf größere Populationen zu verallgemeinern. Schauen wir uns einige der in der Inferenzstatistik verfügbaren Methoden an.
01. Hypothesenprüfung
Das Testen von Hypothesen und das Ziehen von Verallgemeinerungen über die Grundgesamtheit aus den Stichprobendaten sind Beispiele für die Inferenzstatistik. Es müssen eine Nullhypothese und eine Alternativhypothese aufgestellt und dann ein statistischer Signifikanztest durchgeführt werden.
Ein Hypothesentest kann links-, rechts- oder zweiseitige Verteilungen haben. Der Wert der Teststatistik, der kritische Wert und die Konfidenzintervalle werden für die Schlussfolgerung verwendet. Im Folgenden sind einige wichtige Hypothesentests aufgeführt, die in der Inferenzstatistik verwendet werden.
Z-Test
Wenn die Daten normalverteilt sind und der Stichprobenumfang mindestens 30 beträgt, wird der z-Test auf die Daten angewendet. Wenn die Varianz der Grundgesamtheit bekannt ist, bestimmt er, ob die Mittelwerte der Stichprobe und der Grundgesamtheit gleich sind. Der folgende Aufbau kann verwendet werden, um die rechtsschiefe Hypothese zu testen:
Nullhypothese: H0: μ=μ0
Alternativhypothese: H1: μ>μ0
Teststatistik: Z-Test = (x̄ – μ) / (σ / √n)
wo,
x̄ = Mittelwert der Stichprobe
μ = Mittelwert der Bevölkerung
σ = Standardabweichung der Grundgesamtheit
n = Stichprobenumfang
Entscheidungskriterien: Wenn die z-Statistik > z kritischer Wert, verwerfen Sie die Nullhypothese.
T-Test
Wenn der Stichprobenumfang weniger als 30 beträgt und die Daten eine Student-t-Verteilung aufweisen, wird ein t-Test verwendet. Der Stichproben- und der Populationsmittelwert werden verglichen, wenn die Populationsvarianz unbekannt ist. Der inferentielle statistische Hypothesentest lautet wie folgt:
Nullhypothese:H0: μ=μ0
Alternativhypothese: H1: μ>μ0
Teststatistik: t = x̄-μ / s√n
Die Darstellungen x̄, μ und n sind die gleichen wie für den z-Test angegeben. Der Buchstabe „s“ steht für die Standardabweichung der Stichprobe.
Entscheidungskriterien: Wenn die t-Statistik > t kritischer Wert, verwerfen Sie die Nullhypothese.
F Test
Wenn Sie die Varianzen zweier Stichproben oder Populationen vergleichen, wird ein f-Test verwendet, um festzustellen, ob ein Unterschied besteht. Der rechtsbündige f-Test kann wie folgt konfiguriert werden:
Null-Hypothese:H0:σ21=σ22
Alternativhypothese: H1:σ21> σ22
Teststatistik: f = σ21/ σ22, wobei σ21 die Varianz der ersten Population und σ22 die Varianz der zweiten Population ist.
Entscheidungskriterien: Entscheidungskriterien: Verwerfen Sie die Nullhypothese, wenn die f-Teststatistik > kritischer Wert.
Ein Konfidenzintervall hilft bei der Schätzung der Parameter einer Population. Ein Konfidenzintervall von 95 % bedeutet beispielsweise, dass 95 von 100 Tests mit frischen Proben, die unter identischen Bedingungen durchgeführt werden, dazu führen, dass der Schätzwert innerhalb des angegebenen Bereichs liegt. Eine Konfidenzintervallformel kann auch verwendet werden, um den entscheidenden Wert bei Hypothesentests zu bestimmen.
Zusätzlich zu diesen Tests werden in der Inferenzstatistik auch die Tests ANOVA, Wilcoxon signed-rank, Mann-Whitney U, Kruskal-Wallis und H verwendet.
LERNEN SIE MEHR: ANOVA-Tests
02. Regressionsanalyse
Die Regressionsanalyse berechnet, wie sich eine Variable auf eine andere auswirkt. Es können zahlreiche Regressionsmodelle verwendet werden, darunter einfache lineare, multiple lineare, nominale, logistische und ordinale Regression.
In der Inferenzstatistik ist die lineare Regression die am häufigsten verwendete Art der Regression. Mit Hilfe der linearen Regression wird die Reaktion der abhängigen Variable auf eine Einheitsänderung der unabhängigen Variable untersucht. Dies sind einige wichtige Gleichungen für die Regressionsanalyse in der Inferenzstatistik:
Regressionskoeffizienten:
Die Geradengleichung ist gegeben als y = α + βx, wobei α und β Regressionskoeffizienten sind.
β=∑n1(xi – x̄)(yi -y) / ∑n1(xi-x)2
β=rxy σy / σx
α=y-βx
Dabei ist x der Mittelwert und σx die Standardabweichung des ersten Datensatzes. Analog dazu ist y der Mittelwert und σy die Standardabweichung des zweiten Datensatzes.
Beispiel für Inferenzstatistiken
Nehmen wir für dieses Beispiel an, dass Sie Ihre Untersuchung auf die Testergebnisse für eine bestimmte Klasse gestützt haben, wie im Abschnitt über deskriptive Statistik beschrieben. Sie möchten nun eine inferenzstatistische Untersuchung für denselben Test durchführen.
Nehmen wir an, es handelt sich um eine standardisierte landesweite Prüfung. Sie können demonstrieren, wie dies die Durchführung der Studie und die von Ihnen berichteten Ergebnisse verändert, indem Sie denselben Test verwenden, aber dieses Mal, um Rückschlüsse auf eine Gemeinschaft zu ziehen.
Wählen Sie die Klasse aus, die Sie in der deskriptiven Statistik beschreiben möchten, und geben Sie dann alle Testergebnisse für diese Klasse ein. Gut und einfach. Für die Inferenzstatistik müssen Sie zunächst die Grundgesamtheit definieren, bevor Sie eine Zufallsstichprobe aus ihr auswählen.
Um eine repräsentative Stichprobe zu gewährleisten, müssen Sie eine Stichprobenstrategie entwickeln. Dieses Verfahren kann einige Zeit in Anspruch nehmen. Nehmen wir als Definition der Grundgesamtheit Fünftklässler, die eine öffentliche Schule im US-Bundesstaat Kalifornien besuchen.
Nehmen Sie für dieses Beispiel an, dass Sie der gesamten Bevölkerung eine Namensliste gegeben haben, dann 100 Schüler nach dem Zufallsprinzip aus dieser Liste ausgewählt und deren Testergebnisse ermittelt haben. Beachten Sie, dass diese Schüler nicht aus einer einzigen Klasse stammen, sondern aus einer Vielzahl von Klassen verschiedener Schulen im ganzen Bundesstaat.
Inferentielle Statistik ergibt
Der Mittelwert, die Standardabweichung und der Anteil für Ihre Stichprobe können mit Hilfe der Inferenzstatistik als Punktschätzung berechnet werden. Es gibt keine Möglichkeit, das zu wissen, aber es ist unwahrscheinlich, dass eine dieser Punktschätzungen exakt ist. Diese Zahlen weisen eine Fehlerspanne auf, da es unmöglich ist, jedes Subjekt in dieser Population zu messen.
Geben Sie die Konfidenzintervalle für den Mittelwert, die Standardabweichung und den Prozentsatz der zufriedenstellenden Ergebnisse (>=70) an. Die CSV-Datendatei enthält inferentielle Statistiken.
Statistik | Populationsparameter-Schätzungen (CIs) |
Mittlere | 77.4 – 80.9 |
Standardabweichung | 7.7 – 10.1 |
Anteil der Punkte >= 70 | 77% – 92% |
Der Mittelwert der Bevölkerung liegt zwischen 77,4 und 80,9, mit einem Konfidenzintervall von 95 % angesichts der Unsicherheit dieser Schätzungen. Die Standardabweichung der Grundgesamtheit, ein Maß für die Streuung, liegt höchstwahrscheinlich zwischen 7,7 und 10,1. Außerdem wird für den Anteil der zufriedenstellenden Ergebnisse in der Grundgesamtheit ein Wert zwischen 77 % und 92 % vorhergesagt.
Unterschiede zwischen deskriptiver und inferentieller Statistik
Sowohl die deskriptive als auch die inferentielle Statistik sind Arten der statistischen Analyse, die zur Beschreibung und Analyse von Daten verwendet werden. Hier sind die Hauptunterschiede zwischen ihnen:
Definition
Deskriptive Statistiken verwenden Maße wie Mittelwert, Median, Modus, Standardabweichung, Varianz und Bereich, um die Merkmale eines Datensatzes zusammenzufassen und zu beschreiben. Auf der Grundlage der Daten werden keine Schlussfolgerungen oder Vorhersagen über eine Population getroffen.
Inferenzstatistiken hingegen verwenden eine Datenstichprobe, um Rückschlüsse auf die Grundgesamtheit zu ziehen, aus der die Daten stammen. Sie verwenden die Wahrscheinlichkeitstheorie und statistische Modelle, um die Wahrscheinlichkeit bestimmter Ergebnisse zu bestimmen und Hypothesen über die Grundgesamtheit zu testen.
Zweck
Deskriptive Statistiken werden in der Regel verwendet, um die Daten zusammenzufassen und die wichtigsten Teile des Datensatzes klar und prägnant zu erklären. Sie beschreiben die Verteilung einer Variablen, ermitteln Trends und Muster und untersuchen die Beziehung zwischen Variablen.
Inferenzstatistiken werden in der Regel verwendet, um Hypothesen zu prüfen und aus einer Stichprobe Schlussfolgerungen über eine Grundgesamtheit zu ziehen. Sie werden verwendet, um Vorhersagen zu treffen, Parameter zu schätzen und die Bedeutung von Unterschieden zwischen Gruppen zu testen.
Daten
Deskriptive Statistiken können für jede Art von Daten verwendet werden, einschließlich numerischer Daten (wie Alter, Gewicht und Größe) und kategorischer Daten (z. B. Geschlecht, Ethnie, Beruf).
In der Inferenzstatistik werden Zufallsstichproben aus einer Grundgesamtheit verwendet, wobei Annahmen darüber getroffen werden, wie die Daten verteilt sind und wie groß die Stichprobe ist.
Ergebnisse
Deskriptive Statistiken geben einen Überblick über die Daten und werden in der Regel in Tabellen, Diagrammen oder zusammenfassenden Statistiken dargestellt.
Inferenzstatistiken liefern Schätzungen und Wahrscheinlichkeiten über eine Population und werden in der Regel als Hypothesentests, Konfidenzintervalle und Effektgrößen angegeben.
Während die inferentielle Statistik dazu dient, auf der Grundlage von Stichprobendaten Rückschlüsse auf die Grundgesamtheit zu ziehen, wird die deskriptive Statistik zur Zusammenfassung und Charakterisierung der Daten verwendet.
Die Bedeutung der Inferentialstatistik: Einige Bemerkungen
- In der Inferenzstatistik werden Analyseinstrumente eingesetzt, um zu ermitteln, was die Daten einer Stichprobe über die gesamte Population aussagen.
- Zur Inferenzstatistik gehören Dinge wie das Testen einer Hypothese und die Untersuchung von Veränderungen im Zeitverlauf.
- In der Inferenzstatistik werden Stichprobenverfahren verwendet, um Stichproben zu finden, die für die gesamte Population repräsentativ sind.
- In der Inferenzstatistik werden Instrumente wie der Z-Test, der t-Test und die lineare Regression verwendet, um festzustellen, was vor sich geht.
Fazit
Mit Hilfe der Inferenzstatistik lassen sich auf der Grundlage von Daten aus einer kleinen Stichprobe Rückschlüsse auf ganze Gruppen von Menschen ziehen. Die Inferenzstatistik nutzt die Theorie der Wahrscheinlichkeitsstichproben und statistische Modelle, um Forschern zu helfen, die Wahrscheinlichkeit bestimmter Ergebnisse zu bestimmen und ihre Ideen über die Bevölkerung zu testen. Bei der statistischen Analyse ist die Unterscheidung zwischen kategorischen Daten und numerischen Daten von wesentlicher Bedeutung, da kategorische Daten eindeutige Kategorien oder Bezeichnungen beinhalten, während numerische Daten aus messbaren Größen bestehen.
Die Inferenzstatistik ist ein wichtiger Teil der Dateneinheit von Analyse und Forschung, weil sie uns ermöglicht, Vorhersagen zu treffen und Schlussfolgerungen über ganze Populationen auf der Grundlage von Daten aus einer kleinen Stichprobe zu ziehen. Sie ist ein kompliziertes und fortgeschrittenes Gebiet, das sorgfältige Überlegungen zu Annahmen und Datenqualität erfordert, aber sie kann wichtige Forschungsfragen und Antworten auf wichtige Fragen liefern.
QuestionPro bietet Forschern eine einfache und effektive Möglichkeit zur Sammlung und Analyse von Daten für die Inferenzstatistik. Mit den Stichprobenoptionen können Sie eine Stichprobenpopulation erstellen, die repräsentativ für die Gesamtpopulation ist, und mit den Datenbereinigungstools können Sie sicherstellen, dass die Daten korrekt sind.
QuestionPro ist ein hilfreiches Werkzeug für Forscher, die Daten für die Inferenzstatistik sammeln und analysieren müssen. Mit den analytischen Funktionen von QuestionPro können Sie die Beziehungen zwischen Variablen untersuchen, Populationsparameter schätzen und Hypothesen testen. Also melden Sie sich jetzt an!