Artikel

1.6.5.3: Vertrauensintervalle


Wir sind jetzt bereit, den ersten Schritt in die Welt der Inferenzstatistik und -nutzung zu machen statistische Tests. Sie wurden erfunden, um die Hauptfrage der statistischen Analyse (Abbildung (PageIndex{1})) zu lösen: Wie kann man etwas über schätzen? Population nur seine verwenden Stichprobe? Das klingt nach Magie. Zum Beispiel könnte die Bevölkerung eines von Standarddatenverteilungen.

Abbildung (PageIndex{1}) Grafische Darstellung der wichtigsten statistischen Frage: Wie wird die Population (blau) aus der Stichprobe (rot) geschätzt? Der rote Pfeil bezieht sich auf das Konfidenzintervall. Um die „große rote“ Frage zu beantworten, braucht man den p-Wert.

Lassen Sie uns zuerst berechnen Konfidenzintervall. Dieses Intervall Vorhersagen mit einer gegebenen Wahrscheinlichkeit (normalerweise 95%), wo die bestimmte zentrale Tendenz (Mittelwert oder Median) innerhalb der Bevölkerung liegt. Nicht mit den 95 %-Quantilen mischen, diese Maße haben einen anderen Charakter.

Wir beginnen mit der Überprüfung der Hypothese dass die Bevölkerungsmittelwert ist gleich 0. Das ist unser Nullhypothese, H(_0), die wir aufgrund der Testergebnisse akzeptieren oder ablehnen möchten.

Code (PageIndex{1}) (R):

Hier haben wir eine Variante von . verwendet t-test für univariate Daten, die wiederum den Standard verwenden Studenten-t-Verteilung. Erstens erhält dieser Test einen spezifischen Statistik aus dem Originaldatensatz, sog. t-Statistik. Die Teststatistik ist ein einzelnes Maß für ein Attribut einer Stichprobe; es reduziert alle Daten auf einen Wert und ermöglicht mit Hilfe der Standardverteilung, die „virtuelle Population“ neu zu erstellen.

Der Schülertest hat seinen Preis: Sie sollten davon ausgehen, dass Ihre Population „parametrisch“, „normal“, also mit einer Normalverteilung interpretierbar ist (Dartspielverteilung, siehe Glossar).

Zweitens schätzt dieser Test, ob die aus unseren Daten abgeleitete Statistik vernünftigerweise aus der durch unsere ursprüngliche Annahme definierten Verteilung stammen kann. Dieses Prinzip ist das Herzstück der Berechnung p-Wert. Letzteres ist die Wahrscheinlichkeit, unsere Teststatistik zu erhalten, wenn die anfängliche Annahme, Nullhypothese war wahr (im obigen Fall ist die mittlere Baumhöhe gleich 0).

Was sehen wir in der Ausgabe des Tests? t-Statistik gleich 66,41 bei 30 Freiheitsgraden (df (=30)). Der P-Wert ist wirklich niedrig ((2,2 imes e^{-16})), fast null und definitiv viel niedriger als das „heilige“ Konfidenzniveau von 0,05.

Deswegen, wir verwerfen die Nullhypothese, oder unsere anfängliche Annahme, dass die mittlere Baumhöhe gleich 0 ist und folglich mit dem alternative Hypothese was ein logisches Gegenteil unserer ursprünglichen Annahme ist (d. h. „Höhe ist nicht gleich 0"):

Was aber im Moment wirklich wichtig ist, ist die Konfidenzintervall—ein Bereich, in den der wahre Mittelwert der Grundgesamtheit mit einer gegebenen Wahrscheinlichkeit (95%) fallen sollte. Hier ist es schmal und reicht von 73,7 bis 78,3 und enthält keine Null. Letzteres bedeutet wiederum, dass die Nullhypothese nicht unterstützt wird.

Wenn Ihre Daten mit der Normalverteilung nicht gut funktionieren, benötigen Sie universellere (aber weniger leistungsfähige) Wilcoxon Rangsummentest. Es verwendet Median statt Mittelwert, um die Teststatistik V zu berechnen. Unsere Nullhypothese lautet, dass Bevölkerungsmedian ist gleich null:

Code (PageIndex{2}) (R):

(Bitte ignorieren Sie Warnmeldungen, sie sagen einfach, dass unsere Daten einen Zusammenhang haben: Zwei Gehälter sind identisch.)

Auch hier werden wir unsere Nullhypothese mit hoher Sicherheit verwerfen. Die Übergabe des Arguments conf.int=TRUE gibt das Konfidenzintervall für den Median der Grundgesamtheit zurück – es ist breit (da die Stichprobengröße klein ist), aber es enthält keine Null.


8.6 Vertrauensintervall (Frauenhöhe)

Als Amazon-Partner verdienen wir an qualifizierten Käufen.

Möchten Sie dieses Buch zitieren, teilen oder ändern? Dieses Buch ist Creative Commons Attribution License 4.0 und Sie müssen OpenStax zuordnen.

    Wenn Sie dieses Buch ganz oder teilweise in gedruckter Form weitergeben, müssen Sie auf jeder physischen Seite die folgende Zuordnung angeben:

  • Verwenden Sie die folgenden Informationen, um ein Zitat zu generieren. Wir empfehlen die Verwendung eines Zitationstools wie dieses.
    • Autoren: Barbara Illowsky, Susan Dean
    • Herausgeber/Website: OpenStax
    • Buchtitel: Einführung in die Statistik
    • Erscheinungsdatum: 19.09.2013
    • Ort: Houston, Texas
    • Buch-URL: https://openstax.org/books/introductory-statistics/pages/1-introduction
    • Abschnitts-URL: https://openstax.org/books/introductory-statistics/pages/8-6-confidence-interval-womens-heights

    © 19. Mai 2021 OpenStax. Von OpenStax produzierte Lehrbuchinhalte sind unter einer Creative Commons Attribution License 4.0-Lizenz lizenziert. Der OpenStax-Name, das OpenStax-Logo, die OpenStax-Buchcover, der OpenStax CNX-Name und das OpenStax CNX-Logo unterliegen nicht der Creative Commons-Lizenz und dürfen ohne die vorherige und ausdrückliche schriftliche Zustimmung der Rice University nicht reproduziert werden.


    Was Sie in diesem zyBook finden werden:

    Mehr Action mit weniger Text.

    • Eine außergewöhnlich studentenorientierte Einführung in die angewandte Statistik.
    • Traditionell schwierige Themen werden durch Animationen und Lernfragen erleichtert.
    • Mehrere Kapitel über Datenanalyse und Data-Mining-Algorithmen sind enthalten.
    • Python-Codierungsumgebungen werden überall bereitgestellt, damit die Schüler experimentieren können.
    • Auto-bewertete Programmieraktivitäten sind unter Verwendung einer integrierten Programmierumgebung enthalten.
    • Wird häufig mit “Applied Regression Analysis” kombiniert, wobei zahlreiche Konfigurationen möglich sind.

    Ausbilder: Möchten Sie dieses zyBook für Ihre Klasse evaluieren? Melden Sie sich für eine kostenlose Testversion an und lesen Sie noch heute das erste Kapitel eines zyBooks!


    10.2 Effektstärken

    „Die statistische Signifikanz ist das am wenigsten interessante an den Ergebnissen. Sie sollten die Ergebnisse in Form von Größenordnungen beschreiben – nicht nur, wie stark eine Behandlung die Menschen beeinflusst, sondern wie sehr sie sie beeinflusst.“ Gene Glass, zitiert in (Sullivan und Feinn 2012)

    Im vorigen Kapitel haben wir die Idee diskutiert, dass die statistische Signifikanz nicht unbedingt die praktische Signifikanz widerspiegelt. Um die praktische Bedeutung zu diskutieren, benötigen wir eine Standardmethode, um die Größe eines Effekts anhand der tatsächlichen Daten zu beschreiben, die wir als an . bezeichnen Effektgröße. In diesem Abschnitt stellen wir das Konzept vor und diskutieren verschiedene Möglichkeiten zur Berechnung von Effektstärken.

    Eine Effektstärke ist ein standardisiertes Maß, das die Größe eines statistischen Effekts mit einer Referenzgröße vergleicht, beispielsweise die Variabilität der Statistik. In einigen Bereichen der Wissenschaft und Technik wird diese Idee als „Signal-Rausch-Verhältnis“ bezeichnet. Es gibt viele verschiedene Möglichkeiten, die Effektstärke zu quantifizieren, die von der Art der Daten abhängen.

    10.2.1 Cohens D

    Eines der gebräuchlichsten Maße für die Effektstärke ist bekannt als Cohens d, benannt nach dem Statistiker Jacob Cohen (der für seine Arbeit von 1994 mit dem Titel „The Earth Is Round (p < .05)“ bekannt ist). Es wird verwendet, um die Differenz zwischen zwei Mittelwerten in Bezug auf ihre Standardabweichung zu quantifizieren:

    wo (ar_1) und (ar_2) sind die Mittelwerte der beiden Gruppen und (s) ist die gepoolte Standardabweichung (die eine Kombination der Standardabweichungen für die beiden Stichproben ist, gewichtet nach ihrer Stichprobengröße):

    [ s = sqrt> ] wobei (n_1) und (n_2) die Stichprobengrößen und (s^2_1) und (s^2_2) die Standardabweichungen für die beiden Gruppen sind. Beachten Sie, dass dies der t-Statistik sehr ähnlich ist – der Hauptunterschied besteht darin, dass der Nenner in der t-Statistik auf dem Standardfehler des Mittelwerts basiert, während der Nenner in Cohens D auf der Standardabweichung der Daten basiert. Dies bedeutet, dass die t-Statistik zwar mit zunehmender Stichprobengröße wächst, der Wert von Cohens D jedoch gleich bleibt.

    Tabelle 10.1: Interpetation von Cohens D
    D Deutung
    0.0 - 0.2 vernachlässigbar
    0.2 - 0.5 klein
    0.5 - 0.8 Mittel
    0.8 - groß

    Es gibt eine häufig verwendete Skala zur Interpretation der Größe eines Effekts in Bezug auf Cohens d, die in Tabelle 10.1 dargestellt ist. Es kann nützlich sein, einige allgemein verstandene Effekte zu betrachten, um diese Interpretationen zu verstehen. Zum Beispiel ist die Effektstärke für Geschlechtsunterschiede in der Erwachsenengröße (d = 2,05) sehr groß, wenn man auf unsere Tabelle oben verweist. Wir können dies auch sehen, wenn wir uns die Verteilung der männlichen und weiblichen Körpergröße in einer Stichprobe aus dem NHANES-Datensatz ansehen. Abbildung 10.3 zeigt, dass die beiden Verteilungen recht gut getrennt sind, sich jedoch immer noch überlappen, was die Tatsache unterstreicht, dass selbst bei einer sehr großen Effektstärke für die Differenz zwischen zwei Gruppen Individuen aus jeder Gruppe vorhanden sind, die der anderen Gruppe ähnlicher sind .

    Abbildung 10.3: Geglättete Histogramm-Plots für männliche und weibliche Körpergrößen im NHANES-Datensatz, die deutlich unterschiedliche, aber auch deutlich überlappende Verteilungen zeigen.

    Es ist auch erwähnenswert, dass wir in der Wissenschaft selten auf Effekte dieser Größenordnung stoßen, teilweise weil es sich um so offensichtliche Effekte handelt, dass wir keine wissenschaftliche Forschung benötigen, um sie zu finden. Wie wir in Kapitel 17 über die Reproduzierbarkeit sehen werden, spiegeln sehr große berichtete Effekte in der wissenschaftlichen Forschung oft eher die Anwendung fragwürdiger Forschungspraktiken als wirklich große Effekte in der Natur wider. Es ist auch erwähnenswert, dass sich die beiden Verteilungen selbst bei einem so großen Effekt noch überschneiden - es wird einige Frauen geben, die größer sind als der durchschnittliche Mann und umgekehrt. Bei den meisten interessanten wissenschaftlichen Effekten wird der Überlappungsgrad viel größer sein, daher sollten wir nicht sofort zu starken Schlussfolgerungen über Individuen aus verschiedenen Populationen ziehen, die auch nur auf einer großen Effektstärke basieren.

    10.2.2 Pearsons r

    Pearsons R, auch bekannt als der Korrelationskoeffizient, ist ein Maß für die Stärke der linearen Beziehung zwischen zwei stetigen Variablen. Wir werden die Korrelation in Kapitel 13 viel detaillierter diskutieren, daher speichern wir die Details für dieses Kapitel hier, wir führen einfach ein R um die Beziehung zwischen zwei Variablen zu quantifizieren.

    R ist ein Maß, das von -1 bis 1 variiert, wobei ein Wert von 1 eine perfekte positive Beziehung zwischen den Variablen darstellt, 0 keine Beziehung darstellt und -1 eine perfekte negative Beziehung darstellt. Abbildung 10.4 zeigt Beispiele für verschiedene Korrelationsebenen mit zufällig generierten Daten.

    Abbildung 10.4: Beispiele für verschiedene Niveaus von Pearsons r.

    10.2.3 Quotenverhältnis

    In unserer früheren Erörterung der Wahrscheinlichkeit haben wir das Konzept der Quoten diskutiert – d. h. die relative Wahrscheinlichkeit, dass ein Ereignis eintritt oder nicht:

    Wir haben auch über die . gesprochen Wahrscheinlichkeit, was einfach das Verhältnis von zwei Quoten ist. Das Odds Ratio ist eine nützliche Methode, um Effektstärken für binäre Variablen zu beschreiben.

    Nehmen wir zum Beispiel Rauchen und Lungenkrebs. Eine 2012 im International Journal of Cancer veröffentlichte Studie (Pesch et al. 2012) fasste Daten zum Auftreten von Lungenkrebs bei Rauchern und Personen, die nie geraucht haben, aus verschiedenen Studien zusammen. Beachten Sie, dass diese Daten aus Fall-Kontroll-Studien stammen, was bedeutet, dass Teilnehmer an den Studien rekrutiert wurden, weil sie entweder Krebs hatten oder nicht, ihr Raucherstatus wurde dann untersucht. Diese Zahlen (in Tabelle 10.2 dargestellt) repräsentieren somit nicht die Krebsprävalenz bei Rauchern in der Allgemeinbevölkerung – aber sie können uns über den Zusammenhang zwischen Krebs und Rauchen Aufschluss geben.

    Tabelle 10.2: Auftreten von Lungenkrebs getrennt nach aktuellen Rauchern und solchen, die nie geraucht haben
    Status Nie geraucht Derzeitiger Raucher
    Kein Krebs 2883 3829
    Krebs 220 6784

    Wir können diese Zahlen für jede der Gruppen in Odds Ratios umwandeln. Die Wahrscheinlichkeit, dass ein Nichtraucher Lungenkrebs hat, beträgt 0,08, während die Wahrscheinlichkeit eines aktuellen Rauchers mit Lungenkrebs 1,77 beträgt. Das Verhältnis dieser Odds sagt uns über die relative Krebswahrscheinlichkeit zwischen den beiden Gruppen: Das Odds Ratio von 23,22 sagt uns, dass die Wahrscheinlichkeit von Lungenkrebs bei Rauchern ungefähr 23-mal höher ist als bei Nie-Rauchern.


    Praktische Ökonometrie und Data Science

    Wir werden weiterhin das univariate lineare Regressionsmodell untersuchen: [ mathbf = mathbf oldsymbol <eta>+ oldsymbol ] und nehmen an, dass Annahmen (UR.1)-(UR.4) halten.

    In diesem Abschnitt werden wir den Begriff der Intervallschätzung - ein Verfahren zum Erstellen von Wertebereichen, genannt Vertrauensintervalle, in dem sich die unbekannten Parameter wahrscheinlich befinden. Die Verfahren zur Erstellung von Konfidenzintervallen beruhen stark auf (UR.4) Annahme.

    3.5.1 Intervallschätzung für Parameter

    Denken Sie daran, dass wir in Abschnitt 3.2 die OLS verwendet haben, um den unbekannten Parametervektor zu schätzen: [ widehat<oldsymbol<eta>> = left( mathbf^ op mathbf ight)^ <-1>mathbf^ op mathbf ] Die Schätzungen (widehat<oldsymbol<eta>>) heißen Punktschätzungen - über OLS erhalten wir für jeden Parameter einen einzelnen Wert. Im Gegensatz Intervallschätzungen sind Bereiche von Werten, in denen die Stimmt Parameter (eta_0) und (eta_1) werden wahrscheinlich fallen (die Intervallschätzungen werden für jeden Koeffizienten separat berechnet). Die Intervallschätzung erlaubt uns nicht nur zu bewerten, welche anderen möglichen Werte erhältlich sein könnten, sondern auch die Präzision mit denen die aktuellen Parameter geschätzt werden. Diese Intervallschätzungen werden auch als Vertrauensintervalle.

    Wie wir in Abschnitt 3.4 erwähnt haben, wenn Annahmen (UR.1)-(UR.4) gilt, dann haben die OLS-Schätzer eine Normale bedingt Verteilung: [ widehat<oldsymbol<eta>> | mathbf sim mathcal left(oldsymbol<eta>, sigma^2 left( mathbf^ op mathbf ight)^ <-1> ight) ] Wenn Sie sich erinnern, haben wir in Abschnitt 3.4 auch erwähnt, wie wir standardisieren jede Normalverteilung durch Subtrahieren ihres Mittelwertes (in unserem Fall (mathbb(widehat<eta>_i) = eta_i) , (i = 0,1) ) und dividiert durch seine Standardabweichung: [ Z_i = dfrac_i - eta_i> < m ar>> (mathbf_i>)>> sim mathcal(0, 1) ] Beachten Sie, dass die (Z_i)-Verteilung nicht von (X) abhängig ist. Das bedeutet, dass wir uns bei Aussagen über (Z_i) keine Sorgen machen müssen, ob (X) eine Zufallsvariable ist oder nicht.

    Da (Z_i sim mathcal(0,1)) , können wir eine Tabelle mit normalen Wahrscheinlichkeiten aus jedem Statistikbuch oder online verwenden und haben das: [ mathbb

    (-1,96 leq Z_i leq 1,96) = 0,95 ] Einsetzen des Ausdrucks von (Z_i) ergibt: [ egin mathbb

    left(-1.96 leq dfrac_i - eta_i>< m ar>> (mathbf_i>)>> leq 1,96 ight) &= 0,95 end ] was wir umschreiben können als:

    [ mathbb

    left(widehat<eta>_i - 1,96 sqrt<< m ar>> (mathbf_i>)>leq eta_i leq widehat<eta>_i +1,96 sqrt<< m ar>> (mathbf_i>)> ight) = 0,95 ] Dies definiert das Intervall, das mit einer Wahrscheinlichkeit von 0,95 den Parameter (eta_i) enthält. Mit anderen Worten die Endpunkte: [ widehat<eta>_i pm 1.96 sqrt<< m ar>> (mathbf_i>)>,quad i = 0,1 ] geben ein Intervallschätzer. Konstruieren wir Intervalle auf diese Weise mit alle möglichen Stichproben der Größe (N) aus einer Grundgesamtheit, dann enthalten (95\%) der Intervalle die wahrer Parameter (eta_i) , (i = 0, 1) . Beachten Sie, dass dies voraussetzt, dass Wir kennen die wahre Varianz (mathbb < m ar>(mathbf_i>)) .

    Wie bereits erwähnt, kennen wir die wahre Varianz des Fehlerterms nicht in: [ mathbb < m ar>(widehat<oldsymbol<eta>>) = egin mathbb < m ar>(widehat<eta>_0) & mathbb < m ov>(widehat<eta>_0, widehat<eta>_1) mathbb < m ov>(widehat<eta>_1, widehat<eta>_0) & mathbb < m ar>(widehat<eta>_1) end = sigma^2 left(mathbf^ op mathbf ight)^ <-1>]

    aber wir können es schätzen. Die Schätzung und Ersetzung von (widehat^2) anstelle von (sigma^2) ändert jedoch die Wahrscheinlichkeitsverteilung von (Z_i) von einer Standardnormalen zu (t) - Verteilung mit (N-2) Freiheitsgrade: [ t_i = dfrac_i - eta_i>< ext(widehat<eta>_i)> sim t_ <(N-2)>] wobei ( ext(widehat<eta>_i) = sqrt< m ar>> (mathbf_i>)>) . Dies ist bekannt als die t-Verhältnis (oder t-Statistik) und es ist die Grundlage für Intervallschätzung und Hypothesentest in dem univariates lineares Regressionsmodell.

    Nachweisen. Der Beweis dafür ist aus der Tatsache ersichtlich, dass:

    [ Start epsilon_i sim mathcal(0, sigma^2) iff dfrac sim mathcal(0,1) end ] dann hat die Summe der quadrierten unabhängigen standardisierten Residuen die Chi-Quadrat-Verteilung mit (N) Freiheitsgraden: [ sum_^N left( dfrac ight)^2 sim chi^2_N ] Da die wahren Fehler nicht beobachtbar sind, ersetzen wir sie durch die OLS-Residuen, dann die Zufallsvariable ( widehat^2) hat eine Chi-Quadrat-Verteilung mit (N-2) Freiheitsgraden: [ V = dfrac^N widehat^2_i> = dfrac<(N-2)widehat^2> = left(dfrac ight)widehat^2 sim chi^2_ ] Aus dem zuvor definierten (Z_i sim mathcal(0,1)) und das neu definierte (Vsimchi^2_) können wir folgende Zufallsvariable definieren: [ t_i = dfrac> sim t_ <(N-2)>] durch Ersetzen der Ausdrücke von (Z_i) und (V) kann gezeigt werden, dass: [ t_i = dfrac_i - eta_i>< ext(widehat<eta>_i)> ]

    Für das 95. Perzentil der (t)-Verteilung mit (N-2) Freiheitsgraden hat der Wert (t_<(0.95, N-2)>) die Eigenschaft, dass (0.95) von die Wahrscheinlichkeit fällt nach links: (mathbb

    left( t_ <(N-2)>leq t_ <(0.95, N-2)> ight) = 0.95) , wobei (t_<(N-2)>) von a (t ) -Verteilung mit (N-2) Freiheitsgraden.

    Wenn wir uns eine statistische Tabelle der Perzentilwerte für die (t)-Verteilung ansehen, finden wir a kritischer Wert (t_c) , so dass: [ mathbb

    (t_i geq t_c) = mathbb

    (t_i leq -t_c) = dfrac <2>] wobei (alpha) eine Wahrscheinlichkeit ist, normalerweise (alpha = 0,01) , (alpha = 0,05) oder (alpha = 0,1) . Der kritische Wert (t_c) für (N-2) Freiheitsgrade ist der Perzentil Wert der (t)-Verteilung (t_<(1-alpha/2, N-2)>) .


    15.6 Mehr als zwei Mittelwerte vergleichen

    Oft möchten wir mehr als zwei Mittelwerte vergleichen, um festzustellen, ob sie sich voneinander unterscheiden. Nehmen wir an, wir analysieren Daten aus einer klinischen Studie zur Behandlung von Bluthochdruck. In der Studie werden die Freiwilligen einer von drei Bedingungen randomisiert: Medikament 1, Medikament 2 oder Placebo. Lassen Sie uns einige Daten generieren und grafisch darstellen (siehe Abbildung 15.4)

    Abbildung 15.4: Boxplots, die den Blutdruck für drei verschiedene Gruppen in unserer klinischen Studie zeigen.

    15.6.1 Varianzanalyse

    Wir möchten zunächst die Nullhypothese testen, dass die Mittelwerte aller Gruppen gleich sind – das heißt, keine der Behandlungen hatte im Vergleich zu Placebo einen Effekt. Wir können dies mit einer Methode namens do tun Varianzanalyse (ANOVA). Dies ist eine der am häufigsten verwendeten Methoden in der psychologischen Statistik, und wir kratzen hier nur an der Oberfläche. Die Grundidee der ANOVA ist eine, die wir bereits im Kapitel über das allgemeine lineare Modell besprochen haben, und tatsächlich ist ANOVA nur ein Name für eine bestimmte Version eines solchen Modells.

    Erinnern Sie sich aus dem letzten Kapitel daran, dass wir die Gesamtvarianz in den Daten partitionieren können ( (SS_) ) in die Varianz, die durch das Modell erklärt wird ( (SS_) ) und die Varianz, die nicht ( (SS_) ). Wir können dann a . berechnen quadratischer Mittelwert für jeden von diesen durch Division durch ihre Freiheitsgrade für den Fehler ist dies (N - p) (wobei (p) die Anzahl der Mittelwerte ist, die wir berechnet haben), und für das Modell ist dies ( p - 1) :

    Mit der ANOVA möchten wir testen, ob die vom Modell berücksichtigte Varianz größer ist als das, was wir zufällig erwarten würden, unter der Nullhypothese, dass es keine Unterschiede zwischen den Mittelwerten gibt. Während bei der t-Verteilung der Erwartungswert unter der Nullhypothese Null ist, ist dies hier nicht der Fall, da Quadratsummen immer positive Zahlen sind. Glücklicherweise gibt es eine andere theoretische Verteilung, die beschreibt, wie Verhältnisse von Quadratsummen unter der Nullhypothese verteilt werden: F Verteilung (siehe Abbildung 15.5). Diese Verteilung hat zwei Freiheitsgrade, die den Freiheitsgraden für den Zähler (hier das Modell) und den Nenner (hier der Fehler) entsprechen.

    Abbildung 15.5: F-Verteilungen unter der Nullhypothese für verschiedene Freiheitsgrade.

    Um ein ANOVA-Modell zu erstellen, erweitern wir die Idee von Dummy-Codierung die Sie im letzten Kapitel kennengelernt haben. Denken Sie daran, dass wir für den t-Test, der zwei Mittelwerte vergleicht, eine einzelne Dummy-Variable erstellt haben, die den Wert 1 für eine der Bedingungen und Null für die anderen annimmt. Hier erweitern wir diese Idee, indem wir zwei Dummy-Variablen erstellen, von denen eine für die Bedingung Medikament 1 und die andere für die Bedingung Medikament 2 codiert. Genau wie beim t-Test haben wir eine Bedingung (in diesem Fall Placebo), die keine Dummy-Variable hat und somit die Basislinie darstellt, mit der die anderen verglichen werden. Der Mittelwert definiert den Achsenabschnitt des Modells. Mit der Dummy-Codierung für die Medikamente 1 und 2 können wir ein Modell mit dem gleichen Ansatz anpassen, den wir im vorherigen Kapitel verwendet haben:

    Die Ausgabe dieses Befehls liefert uns zwei Dinge. Erstens zeigt es uns das Ergebnis eines t-Tests für jede der Dummy-Variablen, der uns im Wesentlichen sagt, ob sich jede der Bedingungen separat von Placebo unterscheidet. Es scheint, dass Medikament 1 dies tut, während Medikament 2 nicht. Beachten Sie jedoch, dass wir, wenn wir diese Tests interpretieren wollten, die p-Werte korrigieren müssten, um der Tatsache Rechnung zu tragen, dass wir mehrere Hypothesentests durchgeführt haben. Im nächsten Kapitel werden wir ein Beispiel dafür sehen.

    Denken Sie daran, dass die Hypothese, die wir zu Beginn testen wollten, die war, ob es einen Unterschied zwischen einer der Bedingungen gab, die wir als . bezeichnen Omnibus Hypothesentest, und es ist der Test, der von der F-Statistik bereitgestellt wird. Die F-Statistik sagt uns im Grunde, ob unser Modell besser ist als ein einfaches Modell, das nur einen Achsenabschnitt enthält. In diesem Fall sehen wir, dass der F-Test hochsignifikant ist, was mit unserem Eindruck übereinstimmt, dass es Unterschiede zwischen den Gruppen zu geben schien (von denen wir tatsächlich wissen, dass sie es gab, weil wir die Daten erstellt haben).


    Konfidenzintervall mit der Normalverteilung / Z-Verteilung

    Sehen Sie sich das Video für ein Beispiel an:

    Wenn Sie Ihren Grundgesamtheitsmittelwert (&mu) nicht kennen, aber die Standardabweichung (&sigma) kennen, können Sie mit der Formel ein Konfidenzintervall für den Grundgesamtheitsmittelwert ermitteln:
    x̄ ± z* &sigma / (&radicn),

    Beispielaufgabe: Konstruieren Sie ein 95 %-Konfidenzintervall ein Experiment, das ergab, dass die mittlere Temperatur der Stichprobe für eine bestimmte Stadt im August 101,82 betrug, mit einer Bevölkerungsstandardabweichung von 1,2. Es gab 6 Proben in diesem Experiment.

    Schritt 1: Ziehen Sie das Konfidenzniveau (in der Frage als 95 Prozent angegeben) von 1 ab und teilen Sie das Ergebnis dann durch zwei. Dies ist Ihr Alpha-Level, der den Bereich in einem Schwanz darstellt.
    (1 – .95) / 2 = .025

    Schritt 2: Ziehen Sie Ihr Ergebnis von Schritt 1 von 1 ab und schauen Sie dann in diesem Bereich in der Mitte der Z-Tabelle nach, um den Z-Score zu erhalten:

    Schritt 3: Setze die Zahlen in den zweiten Teil der Formel ein und löse:
    z* &sigma / (&radicn)
    = 1,96 * 1,2/&Radikal(6)
    = 1.96 * 0.49
    = 0.96

    Schritt 4: Für das untere Ende des Bereichs ziehen Sie Schritt 3 vom Mittelwert ab.
    101.82 – 0.96 = 100.86

    Schritt 5: Für das obere Ende des Bereichs fügen Sie Schritt 3 zum Mittelwert hinzu.
    101.82 + 0.96 = 102.78.


    Vertrauensintervall verstehen Understanding

    Konfidenzintervalle messen den Grad der Unsicherheit oder Gewissheit einer Stichprobenmethode. Sie können eine beliebige Anzahl von Wahrscheinlichkeitsgrenzen annehmen, wobei die häufigste ein Konfidenzniveau von 95 % oder 99 % ist. Konfidenzintervalle werden mit statistischen Methoden wie einem t-Test durchgeführt.

    Statistiker verwenden Konfidenzintervalle, um die Unsicherheit in einer Stichprobenvariablen zu messen. Ein Forscher wählt beispielsweise zufällig verschiedene Stichproben aus derselben Grundgesamtheit aus und berechnet ein Konfidenzintervall für jede Stichprobe, um zu sehen, wie sie den wahren Wert der Grundgesamtheitsvariable darstellen kann. Die resultierenden Datensätze sind alle unterschiedlich, einige Intervalle enthalten den wahren Populationsparameter und andere nicht.

    Ein Konfidenzintervall ist ein Bereich von Werten, der über und unter den Mittelwert der Statistik begrenzt ist und der wahrscheinlich einen unbekannten Populationsparameter enthalten würde. Das Konfidenzniveau bezieht sich auf den Prozentsatz der Wahrscheinlichkeit oder Gewissheit, dass das Konfidenzintervall den wahren Populationsparameter enthalten würde, wenn Sie eine Zufallsstichprobe viele Male ziehen. Oder im Volksmund: "Wir sind uns zu 99% sicher (Vertrauensniveau) dass die meisten dieser Proben (Vertrauensintervalle) den wahren Populationsparameter enthalten."

    Das größte Missverständnis in Bezug auf Konfidenzintervalle besteht darin, dass sie den Prozentsatz der Daten einer bestimmten Stichprobe darstellen, der zwischen den oberen und unteren Grenzen liegt. Beispielsweise könnte man das oben erwähnte 99%-Konfidenzintervall von 70 bis 78 Zoll fälschlicherweise so interpretieren, dass 99% der Daten in einer Zufallsstichprobe zwischen diesen Zahlen liegen. Dies ist falsch, obwohl eine separate Methode der statistischen Analyse existiert, um eine solche Feststellung zu treffen. Dazu müssen der Mittelwert und die Standardabweichung der Stichprobe ermittelt und diese Zahlen auf einer Glockenkurve aufgetragen werden.

    Vertrauen Intervall und Vertrauen Niveau hängen zusammen, sind aber nicht genau gleich.


    9.1 Matrixansatz zur Regression

    In unserem obigen Beispiel haben wir zwei Prädiktorvariablen verwendet, aber es wird nur etwas mehr Arbeit erfordern, eine beliebige Anzahl von Prädiktorvariablen zu berücksichtigen und ihre Koeffizientenschätzungen abzuleiten. Wir können das Modell betrachten,

    [ Y_i = eta_0 + eta_1 x_ + eta_2x_ + cdots + eta_ x_ + epsilon_i, qquad i = 1, 2, ldots, n]

    wobei (epsilon_i sim N(0, sigma^2)) . In diesem Modell gibt es (p - 1) Prädiktorvariablen, (x_1, x_2, cdots, x_) . Es gibt insgesamt (p) (eta) -Parameter und einen einzigen Parameter (sigma^2) für die Varianz der Fehler. (Es sollte beachtet werden, dass Autoren fast genauso oft (p) als Anzahl der Prädiktoren verwenden, was die Gesamtzahl der (eta)-Parameter zu (p+1) macht. Dies ist immer etwas, das Sie sollten Beachten Sie, wenn Sie über multiple Regression lesen. Es gibt keinen Standard, der am häufigsten verwendet wird.)

    Wenn wir die linearen (n)-Gleichungen, die jedes (Y_i) darstellen, zu einem Spaltenvektor stapeln würden, erhalten wir Folgendes.

    [ Start Y_1 Y_2 vdots Y_n end = egin 1 & x_ <11>& x_ <12>& cdots & x_ <1(p-1)> 1 & x_ <21>& x_ <22>& cdots & x_ <2(p-1)> vdots & vdots & vdots & & vdots 1 & x_ & x_ & cdots & x_ Ende Start eta_0 eta_1 eta_2 vdots eta_ Ende + egin epsilon_1 epsilon_2 vdots epsilon_n end ]

    [ Y = egin Y_1 Y_2 vdots Y_n end, quad X = egin 1 & x_ <11>& x_ <12>& cdots & x_ <1(p-1)> 1 & x_ <21>& x_ <22>& cdots & x_ <2(p-1)> vdots & vdots & vdots & & vdots 1 & x_ & x_ & cdots & x_ Ende, quad eta = egin eta_0 eta_1 eta_2 vdots eta_ Ende, quad epsilon = egin epsilon_1 epsilon_2 vdots epsilon_n end ]

    [ y = egin y_1 y_2 vdots y_n end ]

    Wie zuvor können wir (eta) abschätzen, indem wir

    [ f(eta_0, eta_1, eta_2, cdots, eta_) = sum_^(y_i - (eta_0 + eta_1 x_ + eta_2x_ + cdots + eta_ x_))^2, ]

    was das Ableiten von (p) erfordern würde, was zu folgendem führt: normale Gleichungen.

    Die Normalgleichungen lassen sich viel prägnanter in Matrixschreibweise schreiben,

    Wir können diesen Ausdruck dann lösen, indem wir beide Seiten mit der Inversen von (X^ op X) multiplizieren, die existiert, vorausgesetzt, die Spalten von (X) sind linear unabhängig. Dann kennzeichnen wir unsere Lösung wie immer mit einem Hut.

    [ hat <eta>= left( X^ op X ight)^<-1>X^ op y ]

    Um zu verifizieren, dass R dies im Fall von zwei Prädiktoren für uns getan hat, erstellen wir eine (X)-Matrix. Beachten Sie, dass die erste Spalte nur aus 1 besteht und die restlichen Spalten die Daten enthalten.

    [ hat <eta>= egin -14,6376419 -0,0066349 0,761402 Ende ]

    In unserer neuen Notation können die angepassten Werte geschrieben werden

    Dann können wir einen Vektor für die Restwerte erstellen,

    [ e = egin e_1 e_2 vdots e_n end = egin y_1 y_2 vdots y_n end - Start Hut_1 hat_2 vdots hat_n end. ]

    Und schließlich können wir unsere Schätzung für (sigma^2) aktualisieren.

    Denken Sie daran, wir mögen diese Schätzung, weil sie unvoreingenommen ist, d.

    Beachten Sie, dass die Änderung von der SLR-Schätzung zu jetzt im Nenner liegt. Konkret dividieren wir jetzt durch (n - p) statt durch (n - 2) . Oder eigentlich sollten wir beachten, dass es im Fall von SLR zwei (eta)-Parameter und somit (p = 2) gibt.

    Beachten Sie auch, dass, wenn wir das Modell (Y_i = eta + epsilon_i) anpassen, (hat = ar) und (p = 1) und (s_e^2) würden zu

    Dies ist wahrscheinlich die allererste Stichprobenstandardabweichung, die Sie in einer mathematischen Statistikklasse gesehen haben. Der gleiche Grund für (n - 1) in diesem Fall, dass wir einen Parameter geschätzt haben, also einen Freiheitsgrad verlieren. Nun schätzen wir im Allgemeinen (p)-Parameter, die (eta)-Parameter, also verlieren wir (p) Freiheitsgrade.

    Denken Sie auch daran, dass wir am häufigsten an (s_e) interessiert sind, dem Reststandardfehler, wie R ihn nennt,

    In R könnten wir für ein angepasstes Modell direkt auf (s_e) zugreifen, wie wir zuvor gesehen haben.

    Und wir können jetzt überprüfen, ob unsere obige Mathematik tatsächlich dieselben Größen berechnet.


    10.3 Statistische Leistung

    Erinnern Sie sich aus dem vorherigen Kapitel daran, dass wir beim Neyman-Pearson-Hypothesentest-Ansatz unser Toleranzniveau für zwei Arten von Fehlern spezifizieren müssen: Falsch-Positive (die sie als Fehler Typ I) und falsch-negativen (die sie nannten) Fehler Typ II). Die Leute konzentrieren sich oft stark auf Fehler vom Typ I, weil eine falsch positive Behauptung im Allgemeinen als sehr schlecht angesehen wird. Zum Beispiel führten die jetzt diskreditierten Behauptungen von Wake:1999, dass Autismus mit Impfungen in Verbindung gebracht wurde, zu einer Anti-Impf-Stimmung, die zu Kinderkrankheiten wie Masern nehmen stark zu. Ebenso wollen wir nicht behaupten, dass ein Medikament eine Krankheit heilt, wenn dies wirklich nicht der Fall ist. Aus diesem Grund wird die Toleranz für Fehler vom Typ I im Allgemeinen ziemlich niedrig angesetzt, normalerweise bei (alpha = 0,05) . Aber was ist mit Fehlern vom Typ II?

    Das Konzept von Statistische Macht ist das Komplement des Fehlers Typ II – d. h. es ist die Wahrscheinlichkeit, ein positives Ergebnis zu finden, wenn es existiert:

    Ein weiterer wichtiger Aspekt des Neyman-Pearson-Modells, auf den wir oben nicht eingegangen sind, ist die Tatsache, dass wir neben der Angabe der akzeptablen Fehlerniveaus vom Typ I und Typ II auch eine spezifische Alternativhypothese beschreiben müssen – d die Größe des Effekts, den wir erkennen möchten? Andernfalls können wir (eta) nicht interpretieren – die Wahrscheinlichkeit, einen großen Effekt zu finden, ist immer höher als einen kleinen Effekt zu finden, daher wird (eta) je nach Größe des Effekts unterschiedlich sein versuchen zu erkennen.

    Es gibt drei Faktoren, die die Leistung beeinflussen können:

    • Stichprobengröße: Größere Stichproben bieten eine größere statistische Aussagekraft
    • Effektstärke: Ein gegebenes Design hat immer eine größere Kraft, einen großen Effekt zu finden als einen kleinen Effekt (weil es einfacher ist, große Effekte zu finden)
    • Typ-I-Fehlerrate: Es besteht eine Beziehung zwischen Typ-I-Fehler und Leistung, so dass (wenn alles andere gleich ist) ein abnehmender Typ-I-Fehler auch die Leistung verringert.

    Wir können dies durch Simulation sehen. Lassen Sie uns zunächst ein einzelnes Experiment simulieren, in dem wir die Mittelwerte zweier Gruppen mit einem Standard-t-Test vergleichen. Wir werden die Größe des Effekts (angegeben in Bezug auf Cohens d), die Fehlerrate Typ I und die Stichprobengröße variieren und für jeden dieser Faktoren untersuchen, wie der Anteil signifikanter Ergebnisse (d. h. Power) beeinflusst wird. Abbildung 10.4 zeigt ein Beispiel dafür, wie sich die Leistung in Abhängigkeit von diesen Faktoren ändert.

    Abbildung 10.4: Ergebnisse der Power-Simulation, die die Power als Funktion der Stichprobengröße zeigt, wobei die Effektstärken in unterschiedlichen Farben dargestellt werden und Alpha als Linientyp angezeigt wird. Das Standardkriterium von 80 % Leistung wird durch die gepunktete schwarze Linie dargestellt.

    Diese Simulation zeigt uns, dass wir selbst bei einer Stichprobengröße von 96 relativ wenig Power haben werden, um einen kleinen Effekt ( (d = 0,2) ) mit (alpha = 0,005) zu finden. Dies bedeutet, dass eine Studie, die darauf ausgelegt ist, zwecklos – das heißt, es wird fast garantiert nichts gefunden, selbst wenn ein echter Effekt dieser Größe existiert.

    There are at least two important reasons to care about statistical power, one of which we discuss here and the other of which we will return to in Chapter ??. If you are a researcher, you probably don’t want to spend your time doing futile experiments. However, running an underpowered study is essentially futile, because it means that there is a very low likelihood that one will find an effect, even if it exists.

    10.3.1 Power analysis

    Fortunately, there are tools available that allow us to determine the statistical power of an experiment. The most common use of these tools is in planning an experiment, when we would like to determine how large our sample needs to be in order to have sufficient power to find our effect of interest.

    Let’s say that we are interested in running a study of how a particular personality trait differs between users of iOS versus Android devices. Our plan is collect two groups of individuals and measure them on the personality trait, and then compare the two groups using a t-test. In order to determine the necessary sample size, we can use the pwr.t.test() function from the pwr library.

    This tells us that we would need at least 64 subjects in each group in order to have sufficient power to find a medium-sized effect. It’s always important to run a power analysis before one starts a new study, to make sure that the study won’t be futile due to a sample that is too small.

    It might have occurred to you that if the effect size is large enough, then the necessary sample will be very small. For example, if we run the same power analysis with an effect size of d=3, then we will see that we only need about 3 subjects in each group to have sufficient power to find the difference.

    However, it’s rare in science to be doing an experiment where we expect to find such a large effect – just as we don’t need statistics to tell us that 16-year-olds are taller than than 6-year-olds. When we run a power analysis, we need to specify an effect size that is plausible for our study, which would usually come from previous research. However, in Chapter ?? we will discuss a phenomenon known as the “winner’s curse” that likely results in published effect sizes being larger than the true effect size, so this should also be kept in mind.


    Schau das Video: coloN vs DEMO FPL 2012 (November 2021).