Wenn nicht alle Einheiten beim Test fehlschlagen, haben wir zensierte Daten Betrachten wir eine Situation, in der wir Zuverlässigkeitstests (n) (nicht reparierbare) Einheiten sind, die zufällig von einer Bevölkerung genommen werden. Wir untersuchen die Bevölkerung, um festzustellen, ob ihre Ausfallrate akzeptabel ist. Im typischen Testszenario haben wir eine feste Zeit (T), um die Einheiten laufen zu lassen, um zu sehen, ob sie überleben oder scheitern. Die erhaltenen Daten werden Censored Type I-Daten genannt. Zensierte Typ I Daten Während der (T) Stunden des Tests beobachten wir (r) Ausfälle (wobei (r) eine beliebige Zahl von 0 bis (n) sein kann). Die (exakten) Ausfallzeiten sind (t1, t2, ldots, tr), und es gibt ((n - r)) Einheiten, die den gesamten (T) - Stunden-Test ohne Ausfall überlebt haben. Beachten Sie, dass (T) im Voraus festgelegt ist und (r) zufällig ist, da wir nicht wissen, wie viele Ausfälle auftreten, bis der Test ausgeführt wird. Beachten Sie auch, dass wir die genauen Zeiten des Ausfalls annehmen, wenn Fehler auftreten. Diese Art der Zensierung wird auch als rechtszensierte Daten bezeichnet, da die Zeiten des Versagens nach rechts (d. h. größer als (T)) fehlen. Eine andere (viel weniger häufig) Art zu testen ist, im Voraus zu entscheiden, dass Sie exakt (r) Ausfallzeiten sehen wollen und dann testen, bis sie auftreten. Zum Beispiel könnten Sie 100 Einheiten auf Test setzen und entscheiden, dass Sie mindestens die Hälfte von ihnen scheitern sehen wollen. Dann ist (r 50), aber (T) unbekannt, bis der 50. Fehler auftritt. Dies wird als Censored Type II-Daten bezeichnet. Zensiert Typ II Daten Wir beobachten (t1,, t2,, ldots,, tr), wobei (r) im Voraus angegeben wird. Der Test endet zur Zeit (T tr), und ((n - r)) Einheiten haben überlebt. Wir nehmen wieder an, dass es möglich ist, die genaue Zeit des Ausfalls für ausgefallene Einheiten zu beobachten. Typ II Zensur hat den entscheidenden Vorteil, dass Sie im Voraus wissen, wie viele Ausfallzeiten Ihr Test nachgeben wird - das hilft bei der Planung von adäquaten Tests enorm. Jedoch ist eine Open-Ended-Zufallsprüfzeit im Allgemeinen von einem Management-Gesichtspunkt aus unpraktisch, und diese Art von Tests ist selten zu sehen. Manchmal wissen wir nicht einmal, die genaue Zeit des Ausfalls Readout oder Intervall-Daten Manchmal sind genaue Zeiten des Versagens nicht nur ein Zeitintervall bekannt, in dem der Fehler aufgetreten ist aufgezeichnet. Diese Art von Daten wird als Readout - oder Intervall-Daten bezeichnet und die Situation ist in der folgenden Abbildung dargestellt: Im allgemeinsten Fall liefert jede beobachtete Einheit genau eine der folgenden drei Informationstypen: eine Laufzeit, wenn das Gerät nicht versagt hat Während unter Beobachtung eine genaue Ausfallzeit ein Intervall der Zeit, während der das Gerät ausgefallen ist. Die Geräte können alle unterschiedliche Laufzeiten und Ausleseintervalle haben. Es wurden viele spezielle Methoden entwickelt, um zensierte Daten zu bearbeiten. Wie können zensierte Daten behandelt werden? Viele statistische Methoden können verwendet werden, um Modelle zu modellieren und Fehlerraten auch bei zensierten Daten zu schätzen. In späteren Abschnitten werden wir den Kaplan-Meier-Ansatz, Probability Plotting, diskutieren. Gefahrenplotten. Grafische Schätzung. Und Maximum Likelihood Estimation. Trennen von Ausfallmodi Wenn ein Datensatz aus Ausfallzeiten besteht, die in mehrere verschiedene Ausfallmodi eingeteilt werden können, ist es möglich (und oftmals notwendig), jede Betriebsart separat zu analysieren und zu modellieren. Betrachten Sie alle Ausfälle durch andere Modi als die, die als Zensurzeiten analysiert werden, wobei die zensierte Laufzeit gleich der Zeit ist, die aufgrund des unterschiedlichen (unabhängigen) Ausfallmodus fehlgeschlagen ist. Dies wird im konkurrierenden Risikoabschnitt und späteren Analyseabschnitten diskutiert. Willkommen am Institut für Digitale Forschung und Bildung Stata Datenanalyse Beispiele Tobitanalyse Versionsinfo: Der Code für diese Seite wurde in Stata 12 getestet. Das Targetmodell, auch zensiert genannt Regression Modell, ist entworfen, um lineare Beziehungen zwischen Variablen abzuschätzen, wenn es entweder Links-oder rechts-Zensur in der abhängigen Variable (auch bekannt als Zensierung von unten und oben). Eine Zensierung von oben findet statt, wenn Fälle mit einem Wert bei oder oberhalb einer Schwelle alle den Wert dieser Schwelle annehmen, so dass der wahre Wert gleich dem Schwellenwert sein kann, aber er könnte auch höher sein. Im Falle der Zensur von unten werden Werte, die bei oder unterhalb einer Schwelle fallen, zensiert. Bitte beachten Sie: Der Zweck dieser Seite ist, wie Sie verschiedene Datenanalyse-Befehle verwenden. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere die Datenreinigung und - prüfung, die Überprüfung der Annahmen, die Modelldiagnose und die möglichen Folgeanalysen nicht. Beispiele für die Umkehrregression Beispiel 1. In den 1980er Jahren gab es ein Bundesgesetz, das die Geschwindigkeitsmesswerte auf nicht mehr als 85 Meilen pro Stunde beschränkte. Also, wenn Sie wollten, um zu prognostizieren ein Fahrzeug-Top-Geschwindigkeit aus einer Kombination von Pferdestärke und Motor-Größe, würden Sie eine Lesung nicht höher als 85, unabhängig davon, wie schnell das Fahrzeug wirklich reisen. Dies ist ein klassischer Fall der Rechtszensur (Zensierung von oben) der Daten. Das einzige, was wir sicher sind, ist, dass diese Fahrzeuge waren mindestens 85 Stundenmeilen unterwegs. Beispiel 2. Ein Forschungsprojekt untersucht das Blei in Trinkwasser als Funktion des Alters eines Haus - und Familieneinkommens. Das Wasserprüfkit kann Bleikonzentrationen unter 5 ppb nicht nachweisen. Die EPA hält über 15 ppb für gefährlich. Diese Daten sind ein Beispiel der linken Zensur (Zensur von unten). Beispiel 3. Betrachten wir die Situation, in der wir ein Maß für die akademische Eignung (skaliert 200-800) haben, die wir unter Verwendung von Lese - und Mathematik-Testergebnissen sowie der Art des Programms, für das der Studierende eingeschrieben ist, modellieren (akademisch, allgemein Oder beruflich). Das Problem hierbei ist, dass Studenten, die alle Fragen auf dem akademischen Eignungstest korrekt beantworten, eine Punktzahl von 800 richtig erhalten, obwohl es wahrscheinlich ist, dass diese Schüler nicht wirklich in Eignung gleich sind. Das gleiche gilt für Studenten, die alle Fragen falsch beantworten. Alle diese Schüler haben eine Punktzahl von 200, obwohl sie nicht alle von gleicher Eignung sein können. Beschreibung der Daten Lets verfolgen Beispiel 3 von oben. Wir haben eine hypothetische Datendatei, tobit. dta mit 200 Beobachtungen. Die akademische Aptitude-Variable ist apt, die Lese-und Mathe-Test Partituren gelesen werden bzw. Mathematik. Die Variable prog ist die Art des Programms, in dem sich der Schüler befindet, es ist eine kategorische (nominale) Variable, die drei Werte annimmt, akademisch (prog 1), allgemein (prog 2) und beruflich (prog 3). Schauen wir uns die Daten an. Beachten Sie, dass in diesem Datensatz der niedrigste Wert von apt 352 ist. Keine Schüler erhielten eine Punktzahl von 200 (d. H. Die niedrigste Punktzahl möglich), was bedeutet, dass, obwohl eine Zensierung von unten möglich war, sie nicht im Datensatz vorkommt. Betrachtet man das obige Histogramm, das die Verteilung von apt zeigt. Wir sehen die Zensur in den Daten, das heißt, es gibt weit mehr Fälle mit Noten von 750 bis 800, als man erwarten würde, den Rest der Verteilung zu betrachten. Unten ist ein alternatives Histogramm, das den Überschuss von Fällen, in denen apt 800 hervorgehoben wird, weiter hervorhebt. Im folgenden Histogramm erzeugt die diskrete Option ein Histogramm, wobei jeder eindeutige Wert von apt einen eigenen Balken aufweist. Die Option freq bewirkt, dass die y-Achse mit der Frequenz für jeden Wert und nicht mit der Dichte markiert wird. Da apt stetig ist, sind die meisten Werte von apt im Dataset eindeutig, obwohl nahe am Zentrum der Verteilung gibt es einige Werte von apt, die zwei oder drei Fälle haben. Der Spike auf der rechten Seite des Histogramms ist die Leiste für Fälle, in denen apt 800, die Höhe dieser Bar relativ zu allen anderen deutlich zeigt die überschüssige Anzahl von Fällen mit diesem Wert. Weiter gut erforschen die bivariate Beziehungen in unserem Datensatz. In der letzten Zeile der Scatterplot-Matrix, die oben gezeigt ist, sehen wir die Scatterplots, die read und apt zeigen. Sowie Mathe und apt. Beachten Sie die Sammlung von Fällen an der Spitze eines jeden Streudiagramm aufgrund der Zensur in der Verteilung von apt. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Sie möglicherweise vorgefunden haben. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. Tobit-Regression, der Schwerpunkt dieser Seite. OLS Regression - Sie könnten diese Daten mit OLS-Regression zu analysieren. OLS-Regression behandelt die 800 als die tatsächlichen Werte und nicht als die obere Grenze der Top-akademischen Eignung. Eine Beschränkung dieses Ansatzes besteht darin, dass OLS, wenn die Variable zensiert wird, inkonsistente Schätzungen der Parameter liefert, was bedeutet, dass die Koeffizienten aus der Analyse sich nicht notwendigerweise den Quotruequot-Populationsparametern nähern, wenn die Probengröße zunimmt. Vgl. Long (1997, Kapitel 7) für eine ausführlichere Diskussion der Probleme der Verwendung der OLS-Regression mit zensierten Daten. Trunkierte Regression - Es gibt manchmal Verwirrung über den Unterschied zwischen abgeschnittenen Daten und zensierten Daten. Bei zensierten Variablen sind alle Beobachtungen im Datensatz enthalten, aber wir kennen die Quottruequot-Werte von einigen von ihnen nicht. Bei der Trunkierung werden einige der Beobachtungen aufgrund des Wertes der Variablen nicht in die Analyse einbezogen. Wenn eine Variable zensiert wird, liefern Regressionsmodelle für abgeschnittene Daten inkonsistente Schätzungen der Parameter. Eine ausführlichere Diskussion über Probleme bei der Verwendung von Regressionsmodellen für verkürzte Daten zur Analyse zensierter Daten finden Sie in Long (1997, Kapitel 7). Tobit-Regression Nachfolgend führen wir das tobit-Modell mit read aus. Math Und prog apt vorhersagen. Die Option ul () im Befehl tobit gibt den Wert an, bei dem die Rechtszensierung beginnt (d. H. Die obere Grenze). Es gibt auch eine Option ll (), um den Wert der linken Zensur (die untere Grenze) anzugeben, die in diesem Beispiel nicht benötigt wurde. Das i. Bevor prog anzeigt, dass prog ein Faktor ist, der variabel ist (d. H. Kategorische Variable), und dass er in dem Modell als eine Reihe von Dummy-Variablen enthalten sein sollte. Beachten Sie, dass diese Syntax in Stata 11 eingeführt wurde. Die endgültige Log-Likelihood (-1041.0629) wird am oberen Rand der Ausgabe angezeigt, es kann in Vergleichen von verschachtelten Modellen verwendet werden, aber wir zeigen hier kein Beispiel. Auch an der Spitze der Ausgabe sehen wir, dass alle 200 Beobachtungen in unserem Datensatz in der Analyse verwendet wurden (weniger Beobachtungen wären verwendet worden, wenn irgendeine unserer Variablen fehlende Werte hätte). Das Wahrscheinlichkeitsverhältnis chi-Quadrat von 188.97 (df4) mit einem p-Wert von 0.0001 sagt uns, dass unser Modell als Ganzes wesentlich besser passt als ein leeres Modell (d. h. ein Modell ohne Prädiktoren). In der Tabelle sehen wir die Koeffizienten, ihre Standardfehler, die t-Statistik, die zugehörigen p-Werte und das Konfidenzintervall der Koeffizienten. Die Koeffizienten für Lesen und Mathematik sind ebenso statistisch signifikant wie der Koeffizient für Prog 3. Tobit-Regressionskoeffizienten werden in ähnlicher Weise wie OLS-Regressionskoeffizienten interpretiert, jedoch ist der lineare Effekt auf der unzensierten latenten Variable, nicht auf dem beobachteten Ergebnis. Siehe McDonald und Moffitt (1980) für weitere Details. Für eine Einheitserhöhung beim Lesen. Gibt es einen 2,7-Punkte-Anstieg in der vorhergesagten Wert von apt. Eine Erhöhung der Mathematik um eine Einheit ist mit einem Anstieg des prognostizierten Wertes von apt um 5,91 Einheiten verbunden. Die Begriffe für Prog haben eine etwas andere Interpretation. Der prognostizierte Wert von apt ist für Studenten in einem Berufsprogramm (prog 3) um 46,14 Punkte niedriger als für Studierende in einem akademischen Programm (prog 1). Das statistische Nebensigma ist analog zur Quadratwurzel der Restvarianz der OLS-Regression. Der Wert von 65,67 kann mit der Standardabweichung der akademischen Eignung verglichen werden, die 99,21 betrug, eine wesentliche Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von Sigma sowie des 95 Konfidenzintervalls. Schließlich liefert die Ausgabe eine Zusammenfassung der Anzahl der linkszensierten, unzensierten und rechtszensierten Werte. Wir können für einen Gesamteffekt von Prog mit dem Test-Befehl testen. Im Folgenden sehen wir, dass der Gesamteffekt von prog statistisch signifikant ist. Wir können auch weitere Hypothesen über die Unterschiede in den Koeffizienten für verschiedene Ebenen der Prog. Im Folgenden wird untersucht, dass der Koeffizient für prog 2 gleich dem Koeffizienten für prog 3 ist. In der nachfolgenden Ausgabe sehen wir, dass der Koeffizient für prog 2 signifikant von dem Koeffizienten für prog 3 abweicht Unser Modell passt. Dies kann insbesondere beim Vergleich konkurrierender Modelle nützlich sein. Eine Methode, um dies zu tun, besteht darin, die vorhergesagten Werte auf der Grundlage des Modells mit den beobachteten Werten in dem Datensatz zu vergleichen. Im Folgenden verwenden wir Vorhersage, um prognostizierte Werte von apt basierend auf dem Modell zu generieren. Als nächstes korrelieren wir die beobachteten Werte von apt mit den vorhergesagten Werten (yhat). Die Korrelation zwischen den prognostizierten und beobachteten Werten von apt beträgt 0,7825. Wenn wir diesen Wert quadrieren, erhalten wir die multiple quadratische Korrelation, dies bedeutet, dass die prognostizierten Werte etwa 61 (0,78252 0,6123) ihrer Varianz mit apt teilen. Zusätzlich können wir den benutzerdefinierten Befehl fitstat verwenden, um eine Vielzahl von Anpassungsstatistiken zu erzeugen. Sie finden weitere Informationen über Fitstat, indem Sie findit fitstat eingeben (siehe Wie kann ich den findit-Befehl verwenden, um nach Programmen zu suchen und zusätzliche Hilfe für weitere Informationen über die Verwendung von findit zu erhalten). Stata Online Manual tobit Ähnliche Stata - Befehle cnreg - zensierte Normalregression, bei der sich die zensierenden Werte von Beobachtung zu Beobachtung ändern können. Intreg - Intervallregression, bei der Beobachtungen Punktdaten, Intervalldaten, linkszensierte Daten oder rechtszensierte Daten sein können. References Long, J. S. (1997). Regressionsmodelle für kategoriale und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. McDonald, J. F. und Moffitt, R. A., 1980. Die Verwendung der Tobit-Analyse. Der Bericht über Wirtschaft und Statistik Vol. 62 (2): 318-321. Tobin, J. (1958). Schätzung der Beziehungen für begrenzte abhängige Variablen. Econometrica 26: 24-36. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien verstanden werden.
No comments:
Post a Comment