Als je een student bent in een statistiekklas of een professionele onderzoeker, moet je weten hoe je inferentiële statistieken gebruikt om gegevens te analyseren en slimme beslissingen te nemen. In dit tijdperk van “big data”, waarin we toegang hebben tot heel veel informatie, is het vermogen om correcte populatieconclusies te trekken uit steekproeven cruciaal.
Inferentiële statistieken stellen je in staat om conclusies te trekken en voorspellingen te doen op basis van je gegevens, terwijl beschrijvende statistieken de eigenschappen van een gegevensverzameling samenvatten. Het is een gebied van de wiskunde waarmee we trends en patronen kunnen identificeren in een groot aantal numerieke gegevens.
In deze post bespreken we inferentiële statistieken, inclusief wat ze zijn, hoe ze werken en enkele voorbeelden.
Definitie van Inferentiële Statistiek
Inferentiële statistiek gebruikt statistische technieken om informatie uit een kleinere steekproef te extrapoleren om voorspellingen te doen en conclusies te trekken over een grotere populatie.
Het gebruikt kansrekening en statistische modellen om populatieparameters te schatten en populatiehypothesen te testen op basis van steekproefgegevens. Het belangrijkste doel van inferentiële statistiek is om informatie te verschaffen over de hele populatie met behulp van steekproefgegevens om de getrokken conclusies zo nauwkeurig en betrouwbaar mogelijk te maken.
Er zijn twee primaire toepassingen voor inferentiële statistieken:
- Bevolkingsschattingen maken.
- Theorieën testen om conclusies te trekken over populaties.
Onderzoekers kunnen een populatie generaliseren door inferentiële statistieken en een representatieve steekproef te gebruiken. Het vereist logisch redeneren om tot conclusies te komen. Hieronder volgt een procedure van de methode om tot de resultaten te komen:
- De te onderzoeken populatie moet als steekproef worden gekozen. In dit geval moeten de aard en de kenmerken van de populatie weerspiegeld worden in de steekproef.
- Inferentiële statistische technieken worden gebruikt om het gedrag van de steekproef te analyseren. Hieronder vallen de modellen die worden gebruikt voor regressieanalyse en hypothesetests.
- De eerste steekproef wordt gebruikt om conclusies te trekken. Aannames of voorspellingen over de hele populatie worden gebruikt om conclusies te trekken.
Soorten inferentiële statistiek
Inferentiële statistieken zijn onderverdeeld in twee categorieën:
- Hypothese testen.
- Regressieanalyse.
Onderzoekers gebruiken deze methoden vaak om resultaten te generaliseren naar grotere populaties op basis van kleine steekproeven. Laten we eens kijken naar enkele methoden die beschikbaar zijn in deferentiële statistiek.
01. Hypothese testen
Het testen van hypotheses en het trekken van generalisaties over de populatie uit de steekproefgegevens zijn voorbeelden van inferentiële statistiek. Er moeten een nulhypothese en een alternatieve hypothese worden opgesteld en vervolgens moet er een statistische significantietest worden uitgevoerd.
Een hypothesetest kan links-, rechts- of tweestaartige verdelingen hebben. De waarde van de teststatistiek, de kritische waarde en de betrouwbaarheidsintervallen worden gebruikt om conclusies te trekken. Hieronder staan enkele belangrijke hypothesetests die worden gebruikt in de afgeleide statistiek.
Z-test
Als de gegevens een normale verdeling hebben en de steekproefomvang minstens 30 is, wordt de z-test toegepast op de gegevens. Als de populatievariantie bekend is, wordt bepaald of de gemiddelden van de steekproef en de populatie gelijk zijn. De volgende opstelling kan worden gebruikt om de rechtsstaarthypothese te testen:
nulhypothese: H0: μ=μ0
Alternatieve hypothese: H1: μ>μ0
Teststatistiek: Z Test = (x̄ – μ) / (σ / √n)
waar,
x̄ = steekproefgemiddelde
μ = populatiegemiddelde
σ = standaardafwijking van de populatie
n = steekproefgrootte
Beslissingscriteria: Als de z statistiek > z kritische waarde, verwerp dan de nulhypothese.
T Test
Als de steekproefomvang kleiner is dan 30 en de gegevens een t-verdeling van studenten hebben, wordt een t-toets gebruikt. Het gemiddelde van de steekproef en de populatie worden vergeleken als de variantie van de populatie onbekend is. De hypothesetest voor de inferentiële statistiek is als volgt:
nulhypothese: H0: μ=μ0
Alternatieve hypothese: H1: μ>μ0
Testgrootheid: t = x̄-μ / s√n
De voorstellingen x̄, μ, en n zijn dezelfde als voor de z-test. De letter “s” staat voor de standaardafwijking van de steekproef.
Beslissingscriteria: Als de t statistiek > t kritische waarde, verwerp dan de nulhypothese.
F Test
Bij het vergelijken van de varianties van twee steekproeven of populaties wordt een f-test gebruikt om te zien of er een verschil is. De rechtsstaart f-test kan als volgt worden geconfigureerd:
nulhypothese: H0:σ21=σ22
Alternatieve hypothese: H1:σ21> σ22
Teststatistiek: f = σ21/ σ22, waarbij σ21 de variantie van de eerste populatie is en σ22 de variantie van de tweede populatie.
Beslissingscriteria: Beslissingscriteria: Verwerp de nulhypothese als f teststatistiek > kritische waarde.
Een betrouwbaarheidsinterval helpt bij het schatten van de parameters van een populatie. Een 95% betrouwbaarheidsinterval betekent bijvoorbeeld dat 95 van de 100 tests met verse monsters uitgevoerd onder identieke omstandigheden zullen resulteren in een schatting binnen het gespecificeerde bereik. Een betrouwbaarheidsinterval kan ook worden gebruikt om de cruciale waarde in hypothesetests te bepalen.
Naast deze toetsen worden in de afgeleide statistiek ook de ANOVA, Wilcoxon signed-rank, Mann-Whitney U, Kruskal-Wallis en H toetsen gebruikt.
LEER OVER: ANOVA testen
02. Regressieanalyse
Regressieanalyse wordt gedaan om te berekenen hoe een variabele zal veranderen in relatie tot een andere. Er kunnen talloze regressiemodellen worden gebruikt, waaronder eenvoudige lineaire, meervoudige lineaire, nominale, logistische en ordinale regressie.
In de afleidingsstatistiek is lineaire regressie de meest gebruikte vorm van regressie. De respons van de afhankelijke variabele op een eenheidsverandering van de onafhankelijke variabele wordt onderzocht door middel van lineaire regressie. Dit zijn enkele cruciale vergelijkingen voor regressieanalyse met behulp van inferentiële statistiek:
Regressiecoëfficiënten:
De vergelijking voor de rechte lijn wordt gegeven als y = α + βx, waarbij α en β regressiecoëfficiënten zijn.
β=∑n1(xi – x̄)(yi -y) / ∑n1(xi-x)2
β=rxy σy / σx
α=y-βx
Hier is x het gemiddelde en σx de standaardafwijking van de eerste gegevensreeks. Op dezelfde manier is y het gemiddelde en σy de standaardafwijking van de tweede gegevensverzameling.
Voorbeeld van inferentiële statistiek
Neem voor dit voorbeeld aan dat je je onderzoek hebt gebaseerd op de testresultaten voor een bepaalde klas, zoals beschreven in het gedeelte over beschrijvende statistieken. Je wilt nu een onderzoek doen naar inferentiële statistiek voor diezelfde test.
Stel dat het een examen is dat voor de hele staat is gestandaardiseerd. Je kunt laten zien hoe dit de manier verandert waarop we het onderzoek uitvoeren en de resultaten die je rapporteert door dezelfde test te gebruiken, maar deze keer met de bedoeling om conclusies te trekken over een gemeenschap.
Kies de klasse die je wilt beschrijven in beschrijvende statistieken en voer dan alle testresultaten voor die klasse in. Goed en gemakkelijk. Voor inferentiële statistieken moet je eerst de populatie definiëren voordat je er een willekeurige steekproef uit trekt.
Om een representatieve steekproef te garanderen, moet je een willekeurige steekproefstrategie ontwikkelen. Deze procedure kan tijd in beslag nemen. Laten we vijfdeklassers die naar openbare scholen gaan in de Amerikaanse staat Californië als bevolkingsdefinitie nemen.
Stel dat je voor dit voorbeeld de hele populatie een lijst met namen hebt gegeven, vervolgens willekeurig 100 studenten uit die lijst hebt geselecteerd en hun testresultaten hebt verkregen. Houd er rekening mee dat deze leerlingen niet uit één klas komen, maar uit verschillende klassen van verschillende scholen in de staat.
Inferentiële statistiek resulteert in
Het gemiddelde, de standaardafwijking en de proportie voor je willekeurige steekproef kunnen allemaal worden berekend met inferentiële statistiek als een puntschatting. Er is geen manier om dat te weten, maar het is onwaarschijnlijk dat deze puntschattingen exact zijn. Deze cijfers hebben een foutmarge omdat het onmogelijk is om elk individu in deze populatie te meten.
Neem de betrouwbaarheidsintervallen op voor het gemiddelde, de standaardafwijking en het percentage voldoendes (>=70). Inferentiële statistieken is het CSV-gegevensbestand.
Statistiek | Schattingen van populatieparameters (CI’s) |
Gemiddelde | 77.4 – 80.9 |
Standaardafwijking | 7.7 – 10.1 |
Percentage scores >= 70 | 77% – 92% |
Het populatiegemiddelde ligt tussen 77,4 en 80,9, met een betrouwbaarheidsinterval van 95% gezien de onzekerheid rond deze schattingen. Een maatstaf voor spreiding: de standaarddeviatie van de populatie zal hoogstwaarschijnlijk tussen 7,7 en 10,1 liggen. Bovendien wordt tussen 77% en 92% voorspeld voor het percentage voldoendes van de populatie.
Verschillen tussen beschrijvende en inferentiële statistiek
Zowel beschrijvende als inferentiële statistieken zijn typen statistische analyse die gebruikt worden om gegevens te beschrijven en te analyseren. Hier zijn de belangrijkste verschillen tussen hen:
Definitie
Beschrijvende statistieken gebruiken maatstaven zoals gemiddelde, mediaan, modus, standaardafwijking, variantie en bereik om de kenmerken van een gegevensverzameling samen te vatten en te beschrijven. Ze maken geen conclusies of voorspellingen over een populatie op basis van de gegevens.
Inferentiële statistieken daarentegen gebruiken een steekproef van gegevens om conclusies te trekken over de populatie waaruit de gegevens afkomstig zijn. Ze gebruiken kansrekening en statistische modellen om de waarschijnlijkheid van bepaalde uitkomsten te bepalen en hypotheses over de populatie te testen.
Doel
Beschrijvende statistieken worden meestal gebruikt om de gegevens samen te vatten en de belangrijkste onderdelen van de dataset duidelijk en beknopt uit te leggen. Ze beschrijven de verdeling van een variabele, vinden trends en patronen en onderzoeken de relatie tussen variabelen.
Inferentiële statistieken worden meestal gebruikt om hypotheses te testen en conclusies te trekken over een populatie op basis van een steekproef. Ze worden gebruikt om voorspellingen te doen, parameters te schatten en het belang van verschillen tussen groepen te testen.
Gegevens
Beschrijvende statistieken kunnen worden gebruikt voor elk type gegevens, inclusief numerieke gegevens (zoals leeftijd, gewicht en lengte) en categorische gegevens (bijvoorbeeld geslacht, ras, beroep).
Inferentiële statistieken gebruiken willekeurige steekproeven uit een populatie en doen aannames over hoe de gegevens verdeeld zijn en hoe groot de steekproef is.
Resultaten
Beschrijvende statistieken geven een overzicht van de gegevens en worden meestal weergegeven in tabellen, grafieken of samenvattende statistieken.
Inferentiële statistieken geven schattingen en waarschijnlijkheden over een populatie en worden meestal gerapporteerd als hypothesetests, betrouwbaarheidsintervallen en effectgroottes.
Terwijl inferentiële statistieken worden gebruikt om conclusies te trekken over de populatie op basis van steekproefgegevens, worden beschrijvende statistieken gebruikt om de gegevens samen te vatten en te karakteriseren.
Het belang van inferentiële statistiek: Enkele opmerkingen
- Inferentiële statistiek gebruikt analytische hulpmiddelen om te bepalen wat de gegevens van een steekproef zeggen over de hele populatie.
- Inferentiële statistiek omvat zaken als het testen van een hypothese en kijken hoe dingen veranderen in de loop van de tijd.
- In de afgeleide statistiek worden steekproefmethoden gebruikt om steekproeven te vinden die representatief zijn voor de hele populatie.
- Inferentiële statistiek maakt gebruik van hulpmiddelen zoals de Z-test, de t-test en lineaire regressie om te bepalen wat er gebeurt.
Conclusie
Inferentiële statistiek is een krachtige manier om conclusies te trekken over hele groepen mensen op basis van gegevens van een kleine steekproef. Inferentiële statistiek maakt gebruik van kanssteekproeftheorie en statistische modellen om onderzoekers te helpen de waarschijnlijkheid van bepaalde uitkomsten te bepalen en hun ideeën over de populatie te testen. Bij statistische analyse is het essentieel om onderscheid te maken tussen categorische gegevens en numerieke gegevens, omdat categorische gegevens verschillende categorieën of labels bevatten, terwijl numerieke gegevens bestaan uit meetbare grootheden.
Inferentiële statistiek is een belangrijk onderdeel van de data-eenheid voor analyse en onderzoek, omdat we hiermee voorspellingen kunnen doen en conclusies kunnen trekken over hele populaties op basis van gegevens van een kleine steekproef. Het is een ingewikkeld en geavanceerd vakgebied dat zorgvuldig nadenken vereist over aannames en gegevenskwaliteit, maar het kan belangrijke onderzoeksvragen en antwoorden op belangrijke vragen opleveren.
QuestionPro biedt onderzoekers een eenvoudige en effectieve manier om gegevens te verzamelen en te analyseren voor inferentiële statistieken. Met de steekproefopties kun je een steekproefpopulatie samenstellen die representatief is voor de grotere populatie en de tools voor het opschonen van gegevens zorgen ervoor dat de gegevens accuraat zijn.
QuestionPro is een handig hulpmiddel voor onderzoekers die gegevens moeten verzamelen en analyseren voor inferentiële statistieken. Met de analytische functies van QuestionPro kun je de relaties tussen variabelen onderzoeken, populatieparameters schatten en hypotheses testen. Meld je dus nu aan!