Monday 23 October 2017

Zentriert Durchschnittlich Statistiken


Bewegungsdurchschnitte Bewegungsdurchschnitte Bei herkömmlichen Datensätzen ist der Mittelwert oft der erste und eine der nützlichsten Zusammenfassungsstatistiken zu berechnen. Wenn Daten in Form einer Zeitreihe vorliegen, ist das Serienmittel ein nützliches Maß, entspricht aber nicht der Dynamik der Daten. Mittelwerte, die über kurzgeschlossene Perioden berechnet werden, die entweder der aktuellen Periode vorausgeht oder auf der aktuellen Periode zentriert sind, sind oft nützlicher. Weil diese Mittelwerte variieren oder sich bewegen, wenn sich die aktuelle Periode von der Zeit t 2, t 3 usw. bewegt, werden sie als gleitende Mittelwerte (Mas) bezeichnet. Ein einfacher gleitender Durchschnitt ist (typischerweise) der ungewichtete Durchschnitt der k vorherigen Werte. Ein exponentiell gewichteter gleitender Durchschnitt ist im Wesentlichen derselbe wie ein einfacher gleitender Durchschnitt, aber mit Beiträgen zum Mittelwert, der durch ihre Nähe zur aktuellen Zeit gewichtet wird. Weil es nicht eine, sondern eine ganze Reihe von gleitenden Durchschnitten für jede gegebene Serie gibt, kann der Satz von Mas selbst auf Graphen aufgetragen, als Serie analysiert und bei der Modellierung und Prognose verwendet werden. Eine Reihe von Modellen kann mit gleitenden Durchschnitten konstruiert werden, und diese sind als MA-Modelle bekannt. Wenn solche Modelle mit autoregressiven (AR) Modellen kombiniert werden, sind die resultierenden zusammengesetzten Modelle als ARMA - oder ARIMA-Modelle bekannt (die I ist für integriert). Einfache Bewegungsdurchschnitte Da eine Zeitreihe als ein Satz von Werten betrachtet werden kann, kann t 1,2,3,4, n der Mittelwert dieser Werte berechnet werden. Wenn wir annehmen, daß n ziemlich groß ist und wir eine ganze Zahl k wählen, die viel kleiner als n ist. Wir können einen Satz von Blockdurchschnitten oder einfache gleitende Mittelwerte (der Ordnung k) berechnen: Jede Maßnahme repräsentiert den Mittelwert der Datenwerte über ein Intervall von k Beobachtungen. Beachten Sie, dass die erste mögliche MA der Ordnung k gt0 die für t k ist. Im Allgemeinen können wir den zusätzlichen Index in den obigen Ausdrücken fallen lassen und schreiben: Dies besagt, dass der geschätzte Mittelwert zum Zeitpunkt t der einfache Durchschnitt des beobachteten Wertes zum Zeitpunkt t und der vorhergehenden k -1 Zeitschritte ist. Wenn Gewichte angewendet werden, die den Beitrag von Beobachtungen, die weiter weg in der Zeit sind, verringern, wird der gleitende Durchschnitt exponentiell geglättet. Bewegliche Mittelwerte werden oft als eine Form der Prognose verwendet, wobei der Schätzwert für eine Reihe zum Zeitpunkt t 1, S t1. Wird als MA für den Zeitraum bis einschließlich Zeit t genommen. z. B. Die heutige Schätzung basiert auf einem Durchschnitt der bisher aufgezeichneten Werte bis einschließlich gestern (für Tagesdaten). Einfache gleitende Durchschnitte können als eine Form der Glättung gesehen werden. In dem unten dargestellten Beispiel wurde der in der Einleitung zu diesem Thema gezeigte Luftverschmutzungs-Datensatz um eine 7-Tage-Gleitende Durchschnitt (MA) - Linie erweitert, die hier in rot dargestellt ist. Wie man sehen kann, glättet die MA-Linie die Gipfel und Tröge in den Daten und kann sehr hilfreich bei der Identifizierung von Trends sein. Die Standard-Vorwärtsberechnungsformel bedeutet, dass die ersten k -1 Datenpunkte keinen MA-Wert haben, aber danach rechnen die Berechnungen bis zum endgültigen Datenpunkt in der Serie. PM10 tägliche Mittelwerte, Greenwich Quelle: London Air Quality Network, londonair. org. uk Ein Grund für die Berechnung einfacher gleitender Durchschnitte in der beschriebenen Weise ist, dass es ermöglicht, Werte für alle Zeitschlitze von der Zeit tk bis zur Gegenwart berechnet werden, und Da eine neue Messung für die Zeit t 1 erhalten wird, kann die MA für die Zeit t 1 dem bereits berechneten Satz hinzugefügt werden. Dies stellt eine einfache Prozedur für dynamische Datensätze zur Verfügung. Allerdings gibt es einige Probleme mit diesem Ansatz. Es ist vernünftig zu argumentieren, dass der Mittelwert über die letzten 3 Perioden, sagen wir, zum Zeitpunkt t -1 liegen sollte, nicht Zeit t. Und für eine MA über eine gerade Anzahl von Perioden vielleicht sollte es sich am Mittelpunkt zwischen zwei Zeitintervallen befinden. Eine Lösung für dieses Problem ist die Verwendung von zentrierten MA-Berechnungen, bei denen das MA zum Zeitpunkt t der Mittelwert eines symmetrischen Satzes von Werten um t ist. Trotz seiner offensichtlichen Verdienste wird dieser Ansatz im Allgemeinen nicht verwendet, weil es erfordert, dass Daten für zukünftige Ereignisse verfügbar sind, was möglicherweise nicht der Fall ist. In Fällen, in denen die Analyse vollständig aus einer bestehenden Serie besteht, kann die Verwendung von zentriertem Mas vorzuziehen sein. Einfache gleitende Durchschnitte können als eine Form der Glättung betrachtet werden, wobei einige hochfrequente Komponenten einer Zeitreihe entfernt werden und die Trends in ähnlicher Weise wie der allgemeine Begriff der digitalen Filterung hervorgehoben werden (aber nicht entfernen) werden. In der Tat sind gleitende Mittelwerte eine Form des linearen Filters. Es ist möglich, eine gleitende Durchschnittsberechnung auf eine Reihe anzuwenden, die bereits geglättet worden ist, d. h. Glätten oder Filtern einer bereits geglätteten Reihe. Zum Beispiel können wir mit einem gleitenden Durchschnitt von Ordnung 2, wie sie mit Gewichten berechnet werden, also die MA bei x 2 0,5 x 1 0,5 x 2 betrachten. Ebenso ist die MA bei x 3 0,5 x 2 0,5 x 3. Wenn wir Eine zweite Glättung oder Filterung anwenden, haben wir 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dh die zweistufige Filterung Prozess (oder Faltung) hat einen variabel gewichteten symmetrischen gleitenden Durchschnitt mit Gewichten erzeugt. Mehrere Windungen können sehr komplexe gewichtete Bewegungsdurchschnitte erzeugen, von denen einige von besonderem Gebrauch in spezialisierten Bereichen, wie in Lebensversicherungsberechnungen, gefunden wurden. Bewegliche Mittelwerte können verwendet werden, um periodische Effekte zu entfernen, wenn sie mit der Länge der Periodizität als bekannt berechnet werden. Zum Beispiel, mit monatlichen Daten saisonale Variationen können oft entfernt werden (wenn dies das Ziel ist), indem Sie einen symmetrischen 12-Monats-gleitenden Durchschnitt mit allen Monaten gleich gewichtet, mit Ausnahme der ersten und letzten, die mit 12 gewichtet werden. Dies ist, weil es wird 13 Monate im symmetrischen Modell (aktuelle Zeit, t. - 6 Monate). Die Summe wird durch 12 geteilt. Ähnliche Verfahren können für jede klar definierte Periodizität angenommen werden. Exponentiell gewichtete Bewegungsdurchschnitte (EWMA) Mit der einfachen gleitenden Durchschnittsformel: Alle Beobachtungen werden gleich gewichtet. Wenn wir diese gleichen Gewichte nennen, alpha t. Jedes der k Gewichte würde 1 k betragen. So wäre die Summe der Gewichte 1, und die Formel wäre: Wir haben bereits gesehen, dass mehrere Anwendungen dieses Prozesses dazu führen, dass die Gewichte variieren. Bei exponentiell gewichteten Bewegungsdurchschnitten wird der Beitrag zum Mittelwert aus Beobachtungen, die in der Zeit mehr entfernt werden, reduziert und damit neue (lokale) Ereignisse hervorgehoben. Im wesentlichen wird ein Glättungsparameter, 0lt alpha lt1, eingeführt und die Formel überarbeitet: Eine symmetrische Version dieser Formel wäre von der Form: Werden die Gewichte im symmetrischen Modell als Begriffe der Binomialexpansion ausgewählt, (1212) 2q. Sie werden auf 1 summieren, und wenn q groß wird, wird die Normalverteilung angenähert. Dies ist eine Form der Kernel-Gewichtung, wobei die Binomie als Kernfunktion fungiert. Die im vorigen Unterabschnitt beschriebene zweistufige Faltung ist genau diese Anordnung, wobei q 1 die Gewichte ergibt. Bei der exponentiellen Glättung ist es notwendig, einen Satz von Gewichten zu verwenden, die auf 1 summieren und die Größe geometrisch verkleinern. Die verwendeten Gewichte sind typischerweise in der Form: Um zu zeigen, dass diese Gewichte auf 1 summieren, betrachten wir die Ausdehnung von 1 als Reihe. Wir können den Ausdruck in Klammern mit der Binomialformel (1- x) p schreiben und erweitern. Wobei x (1-) und p -1, was ergibt: Dies ergibt dann eine Form des gewichteten gleitenden Durchschnitts der Form: Diese Summation kann als eine Wiederholungsrelation geschrieben werden, die die Berechnung stark vereinfacht und das Problem vermeidet, dass das Gewichtungsregime Sollte strikt unendlich sein, damit die Gewichte auf 1 summieren (für kleine Werte von alpha ist dies normalerweise nicht der Fall). Die Notation, die von verschiedenen Autoren verwendet wird, variiert. Manche verwenden den Buchstaben S, um anzuzeigen, daß die Formel im wesentlichen eine geglättete Variable ist und schreibt: Während die Kontrolle Theorie Literatur oft Z anstelle von S für die exponentiell gewichteten oder geglätteten Werte verwendet (siehe z. B. Lucas und Saccucci, 1990, LUC1 , Und die NIST-Website für weitere Details und bearbeitete Beispiele). Die oben zitierten Formeln stammen aus der Arbeit von Roberts (1959, ROB1), aber Hunter (1986, HUN1) verwendet einen Ausdruck der Form: die für die Verwendung in einigen Kontrollverfahren besser geeignet ist. Bei alpha 1 ist die mittlere Schätzung einfach der gemessene Wert (oder der Wert des vorherigen Datenelementes). Mit 0,5 ist die Schätzung der einfache gleitende Durchschnitt der aktuellen und früheren Messungen. Bei der Vorhersage der Modelle ist der Wert S t. Wird oft als Schätz - oder Prognosewert für den nächsten Zeitraum verwendet, dh als Schätzung für x zum Zeitpunkt t 1. Damit haben wir: Dies zeigt, dass der Prognosewert zum Zeitpunkt t 1 eine Kombination aus dem vorherigen exponentiell gewichteten gleitenden Durchschnitt ist Plus eine Komponente, die den gewichteten Vorhersagefehler darstellt, epsilon. Zum Zeitpunkt t. Unter der Annahme, dass eine Zeitreihe gegeben ist und eine Prognose erforderlich ist, ist ein Wert für Alpha erforderlich. Dies kann aus den vorhandenen Daten abgeschätzt werden, indem die Summe der quadratischen Vorhersagefehler mit variierenden Werten von alpha für jedes t 2,3 ausgewertet wird. Einstellung der ersten Schätzung als der erste beobachtete Datenwert x 1. Bei den Steuerungsanwendungen ist der Wert von alpha wichtig, der bei der Bestimmung der oberen und unteren Kontrollgrenzen verwendet wird und die erwartete durchschnittliche Lauflänge (ARL) beeinflusst Bevor diese Kontrollgrenzen kaputt sind (unter der Annahme, dass die Zeitreihe einen Satz von zufälligen, identisch verteilten unabhängigen Variablen mit gemeinsamer Varianz darstellt). Unter diesen Umständen ist die Varianz der Kontrollstatistik: (Lucas und Saccucci, 1990): Kontrollgrenzen werden gewöhnlich als feste Vielfache dieser asymptotischen Varianz gesetzt, z. B. - 3 mal die Standardabweichung. Wenn beispielsweise Alpha 0,25 und die zu überwachenden Daten eine Normalverteilung N (0,1) haben, wenn die Kontrolle begrenzt wird, werden die Regelgrenzen - 1.134 sein und der Prozeß erreicht eine oder andere Grenze in 500 Schritten im Durchschnitt. Lucas und Saccucci (1990 LUC1) leiten die ARLs für eine breite Palette von Alpha-Werten und unter verschiedenen Annahmen mit Markov Chain Verfahren ab. Sie tabellieren die Ergebnisse, einschließlich der Bereitstellung von ARLs, wenn der Mittelwert des Kontrollprozesses um ein Vielfaches der Standardabweichung verschoben wurde. Zum Beispiel ist bei einer 0,5-Schicht mit alpha 0,25 die ARL weniger als 50 Zeitschritte. Die oben beschriebenen Ansätze werden als einzelne exponentielle Glättung bezeichnet. Da die Prozeduren einmal auf die Zeitreihen angewendet werden und dann analysiert oder kontrolliert werden, werden Prozesse auf dem resultierenden geglätteten Datensatz durchgeführt. Wenn der Datensatz einen Trend und saisonale Komponenten enthält, kann eine zweidimensionale oder dreistufige Exponentialglättung als Mittel zur Beseitigung (expliziten Modellierung) dieser Effekte angewendet werden (siehe weiter unten den Abschnitt "Vorhersage" und das NIST-Beispiel). CHA1 Chatfield C (1975) Die Analyse der Times-Serie: Theorie und Praxis. Chapman und Hall, London HUN1 Hunter J S (1986) Der exponentiell gewichtete gleitende Durchschnitt. J von Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiell gewichtete Moving Average Control Schemes: Eigenschaften und Erweiterungen. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolltabelle Tests basierend auf geometrischen Moving Averages. Technometrics, 1, 239-250moving Durchschnitt Mittel der Zeitreihendaten (Beobachtungen gleich zeitlich beabstandet) aus mehreren aufeinanderfolgenden Perioden. Angerufen, sich zu bewegen, weil es kontinuierlich neu berechnet wird, wenn neue Daten verfügbar werden, wird es fortgesetzt, indem man den frühesten Wert fällt und den letzten Wert addiert. Zum Beispiel kann der gleitende Durchschnitt der sechsmonatigen Verkäufe berechnet werden, indem man den Durchschnitt des Umsatzes von Januar bis Juni, dann den Durchschnitt der Verkäufe von Februar bis Juli, dann von März bis August und so weiter. Durchgehende Mittelwerte (1) reduzieren den Effekt von temporären Variationen in den Daten, (2) verbessern die Anpassung der Daten an eine Zeile (ein Prozess namens Glättung), um den Daten-Trend deutlicher zu zeigen und (3) einen Wert über oder unter dem Wert zu markieren Trend. Wenn du etwas mit sehr hoher Abweichung kalkst, kannst du das gleitende Durchschnitt herausfinden. Ich wollte wissen, was der gleitende Durchschnitt von den Daten war, also hätte ich ein besseres Verständnis dafür, wie wir es gemacht haben. Wenn Sie versuchen, herauszufinden, einige Zahlen, die sich ändern oft das Beste, was Sie tun können, ist die gleitenden Durchschnitt zu berechnen. Exponentiell gewichteter gleitender Durchschnitt (EWMA) David, Ja, MapReduce soll auf einer großen Menge an Daten arbeiten. Und die Idee ist, dass im Allgemeinen die Karte und die reduzierten Funktionen nicht darauf achten sollten, wie viele Mapper oder wie viele Reduzierstücke es gibt, das ist nur Optimierung. Wenn Sie sorgfältig über den Algorithmus nachdenken, den ich gepostet habe, können Sie sehen, dass es nicht wichtig ist, welcher Mapper bekommt, welche Teile der Daten. Jeder Eingabedatensatz steht jedem zur Verfügung, um den Betrieb zu reduzieren. Ndash Joe K Sep 18 12 um 22:30 Im besten meiner Verständnis gleitenden Durchschnitt ist nicht schön Karten zu MapReduce Paradigma, da seine Berechnung im Wesentlichen Schiebefenster über sortierte Daten, während MR Verarbeitung von nicht geschnittenen Bereichen von sortierten Daten ist. Lösung, die ich sehe, ist wie folgt: a) Um benutzerdefinierte Partitionierer zu implementieren, um zwei verschiedene Partitionen in zwei Läufen machen zu können. In jedem Durchlauf werden Ihre Reduzierstücke unterschiedliche Datenbereiche berechnen und gleitenden Durchschnitt berechnen, wo es angemessen ist, zu veranschaulichen: Im ersten Lauf werden Daten für Reduzierstücke sein: R1: Q1, Q2, Q3, Q4 R2: Q5, Q6, Q7, Q8 . Hier wirst du gleitender Durchschnitt für einige Qs cacluate. Im nächsten Lauf sollten deine Reduzierer Daten wie: R1: Q1 bekommen. Q6 R2: Q6 Q10 R3: Q10..Q14 Und caclulate den Rest der gleitenden Durchschnitte. Dann müssen Sie die Ergebnisse zusammenfassen. Idee der benutzerdefinierten Partitionierer, dass es zwei Betriebsarten haben wird - jedes Mal in gleiche Bereiche, aber mit einigen Verschiebung. In einem Pseudocode sieht es so aus. Partition (keySHIFT) (MAXKEYnumOfPartitions) wobei: SHIFT aus der Konfiguration entnommen wird. MAXKEY Maximalwert des Schlüssels. Ich gehe aus der Einfachheit, dass sie mit Null beginnen. RecordReader, IMHO ist keine Lösung, da es auf bestimmte Split begrenzt ist und kann nicht über Splits Grenze gleiten. Eine andere Lösung wäre, um die benutzerdefinierte Logik der Aufteilung der Eingangsdaten (es ist Teil der InputFormat) zu implementieren. Es kann getan werden, um 2 verschiedene Dias, ähnlich wie Partitionierung zu tun. Antwortete Sep 17 12 um 8:59

No comments:

Post a Comment