Thursday 9 November 2017

Autoregresyjny ruchomy średni model w r


Autoregresyjne średnie ruchome błędy (błędy ARMA) i inne modele, które wiążą się z opóźnieniami w zakresie błędów, można oszacować za pomocą instrukcji FIT i symulować lub prognozować za pomocą instrukcji SOLVE. Modele ARMA dla procesu błędu są często używane w modelach z autokorelowanymi resztami. Makro AR można wykorzystać do określenia modeli z autoregresyjnymi procesami błędów. Makro MA może być użyte do określenia modeli z ruchomymi średnimi procesami błędów. Błędy autoregresyjne Model z błędami autoregresyjnymi pierwszego rzędu, AR (1), ma postać, podczas gdy proces błędu AR (2) ma formę i tak dalej dla procesów wyższego rzędu. Zauważ, że s są niezależne i identycznie rozmieszczone i mają oczekiwaną wartość 0. Przykład modelu ze składnikiem AR (2) jest i tak dalej dla procesów wyższego rzędu. Na przykład można napisać prosty model regresji liniowej z błędami średniej ruchomej MA (2), ponieważ MA1 i MA2 są parametrami średniej ruchomej. Zauważ, że RESID. Y jest automatycznie definiowany przez PROC MODEL, ponieważ funkcja ZLAG musi być używana dla modeli MA w celu skracania rekurencji opóźnień. Gwarantuje to, że błędy opóźnione zaczynają się od zera w fazie zalewania opóźnienia i nie propagują brakujących wartości, gdy brakuje zmiennych okresu opóźniania i zapewniają, że przyszłe błędy są zerowe, a nie brakują podczas symulacji lub prognozowania. Szczegółowe informacje na temat funkcji opóźnienia znajdują się w sekcji Logika opóźnień. Ten model napisany przy użyciu makra MA jest następujący: Formularz ogólny dla modeli ARMA Ogólny proces ARMA (p, q) ma następującą postać Model ARMA (p, q) można określić w następujący sposób: gdzie AR i i MA j reprezentują parametry autoregresji i średniej ruchomej dla różnych opóźnień. Możesz użyć dowolnych nazw dla tych zmiennych i istnieje wiele równoważnych sposobów na to, aby specyfikacja mogła zostać napisana. Wektorowe procesy ARMA można również oszacować za pomocą MODELU PROC. Na przykład proces dwóch zmiennych AR (1) dla błędów dwóch zmiennych endogenicznych Y1 i Y2 można określić w następujący sposób: Problemy konwergencji z modelami ARMA Modele ARMA mogą być trudne do oszacowania. Jeśli oszacowania parametrów nie mieszczą się w odpowiednim zakresie, terminy rezydualne modeli ruchomych rosną wykładniczo. Obliczone reszty dla późniejszych obserwacji mogą być bardzo duże lub mogą być przepełnione. Może się tak zdarzyć, ponieważ zastosowano niewłaściwe wartości początkowe lub ponieważ iteracje odeszły od rozsądnych wartości. Należy zachować ostrożność przy wybieraniu wartości początkowych dla parametrów ARMA. Wartości początkowe 0,001 dla parametrów ARMA zwykle działają, jeśli model dobrze pasuje do danych, a problem jest dobrze kondycjonowany. Należy zauważyć, że model MA może często być aproksymowany przez model AR wysokiego rzędu i na odwrót. Może to spowodować wysoką kolinearność w mieszanych modelach ARMA, co z kolei może spowodować poważne pogorszenie warunków w obliczeniach i niestabilność oszacowań parametrów. Jeśli masz problemy z konwergencją podczas szacowania modelu z procesami błędów ARMA, spróbuj oszacować w krokach. Najpierw użyj instrukcji FIT do oszacowania tylko parametrów strukturalnych z parametrami ARMA utrzymywanymi do zera (lub do racjonalnych wcześniejszych oszacowań, jeśli są dostępne). Następnie użyj innej instrukcji FIT, aby oszacować tylko parametry ARMA, używając wartości parametrów strukturalnych z pierwszego uruchomienia. Ponieważ wartości parametrów strukturalnych prawdopodobnie będą zbliżone do ich ostatecznych szacunków, oszacowania parametrów ARMA mogą się teraz zbiegać. Na koniec użyj innej instrukcji FIT, aby uzyskać równoczesne oszacowania wszystkich parametrów. Ponieważ początkowe wartości parametrów są prawdopodobnie bardzo zbliżone do końcowych szacunków łącznych, oszacowania powinny szybko zbiegać się, jeśli model jest odpowiedni dla danych. Warunki początkowe AR Początkowe opóźnienia warunków błędów modeli AR (p) można modelować na różne sposoby. Metody autoregressive uruchamiania błędów obsługiwane przez procedury SASETS są następujące: warunkowe najmniejszych kwadratów (procedury ARIMA i MODEL) bezwarunkowe procedury najmniejszych kwadratów (procedury AUTOREG, ARIMA i MODEL) maksymalne prawdopodobieństwo (procedury AUTOREG, ARIMA i MODEL) Yule-Walker (AUTOREG tylko procedura) Hildreth-Lu, która usuwa pierwsze p obserwacje (tylko procedura MODEL) Patrz rozdział 8, Procedura AUTOREG, dla wyjaśnienia i omówienia zalet różnych metod uruchamiania AR (p). Inicjalizacja CLS, ULS, ML i HL może być wykonywana przez PROC MODEL. W przypadku błędów AR (1) te inicjalizacje mogą zostać wykonane zgodnie z tabelą 18.2. Metody te są równoważne w przypadku dużych próbek. Tabela 18.2 Inicjacje wykonywane przez MODEL PROC: AR (1) BŁĘDY Początkowe opóźnienia warunków błędów modeli MA (q) można również modelować na różne sposoby. Następujące paradygmaty rozruchu błędu średniej ruchomej są obsługiwane przez procedury ARIMA i MODEL: bezwarunkowe minimalne kwadraty warunkowe najmniejsze kwadraty Metoda warunkowych najmniejszych kwadratów szacowania średnich błędów ruchu nie jest optymalna, ponieważ ignoruje problem rozruchowy. Zmniejsza to efektywność szacunków, chociaż pozostają one bezstronne. Początkowe opóźnione reszty, rozciągające się przed rozpoczęciem danych, przyjmuje się jako 0, ich bezwarunkową oczekiwaną wartość. Wprowadza to różnicę między tymi resztami a uogólnionymi resztami najmniejszych kwadratów dla średniej ruchomej kowariancji, która, w przeciwieństwie do modelu autoregresyjnego, utrzymuje się przez zbiór danych. Zwykle różnica ta szybko zbiega się do 0, ale w przypadku prawie nieodwracalnych średnich ruchomych konwergencja przebiega dość wolno. Aby zminimalizować ten problem, powinieneś mieć mnóstwo danych, a oszacowania parametrów średniej ruchomej powinny znajdować się w zakresie odwracalności. Ten problem można poprawić kosztem pisania bardziej złożonego programu. Bezwarunkowe estymaty najmniejszych kwadratów dla procesu MA (1) można uzyskać, określając model w następujący sposób: Błędy średniej ruchomej mogą być trudne do oszacowania. Powinieneś rozważyć zastosowanie przybliżenia AR (p) do procesu średniej ruchomej. Proces średniej ruchomej może być zwykle dobrze zindetyzowany przez proces autoregresyjny, jeśli dane nie zostały wygładzone lub zróżnicowane. Makro AR Makro AR AR SAS generuje instrukcje programowania dla PROC MODEL dla modeli autoregresyjnych. Makro AR jest częścią oprogramowania SASETS i żadne specjalne opcje nie muszą być ustawione, aby używać makra. Proces autoregresyjny można zastosować do błędów równań strukturalnych lub samych szeregów endogenicznych. Makro AR może być używane dla następujących typów autoregresji: nieograniczona autoregresja wektora autoregresji ograniczona autoregresja Jednawiściowa autoregresja Aby modelować termin błędu równania jako proces autoregresyjny, należy zastosować następującą instrukcję po równaniu: Załóżmy na przykład, że Y jest funkcja liniowa błędu X1, X2 i AR (2). Piszemy ten model w następujący sposób: Wywołania AR muszą nadejść po wszystkich równaniach, do których proces ma zastosowanie. Poprzednie wywołanie makra, AR (y, 2), tworzy instrukcje pokazane na wyjściu LIST na rysunku 18.58. Rysunek 18.58 LISTA Opcja Wyjście dla modelu AR (2) Zmienne wstępnie zdefiniowane PRED są tymczasowymi zmiennymi programu używanymi w taki sposób, że opóźnienia reszt są poprawnymi resztami, a nie tymi nowo zdefiniowanymi przez to równanie. Zauważ, że jest to odpowiednik instrukcji jawnie zapisanych w sekcji Ogólne Formularze dla modeli ARMA. Możesz także ograniczyć parametry autoregresji do zera w wybranych opóźnieniach. Na przykład, jeśli potrzebujesz parametrów autoregresji w opóźnieniach 1, 12 i 13, możesz użyć następujących instrukcji: Te instrukcje generują wyjście pokazane na rysunku 18.59. Rysunek 18.59 LISTA Wyjście Opcja Wyjście dla modelu AR z opóźnieniami na poziomie 1, 12 i 13 Procedura MODEL Lista skompilowanych deklaracji kodu programu jako przeanalizowana PRED. yab x1 c x2 RESID. y PRED. y - RZECZYWISTA. y BŁĄD. y PRED. y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y wariacje na temat warunkowej metody najmniejszych kwadratów, w zależności od tego, czy obserwacje na początku serii są wykorzystywane do rozgrzania procesu AR. Domyślnie metoda warunkowych najmniejszych kwadratów AR wykorzystuje wszystkie obserwacje i przyjmuje zera dla początkowych opóźnień autoregresyjnych. Korzystając z opcji M, możesz poprosić, aby AR użył zamiast tego metody bezwarunkowego najmniejszych kwadratów (ULS) lub maksymalnych prawdopodobieństw (ML). Na przykład Dyskusje na temat tych metod przedstawiono w sekcji Warunki początkowe AR. Korzystając z opcji MCLS n, możesz poprosić o użycie pierwszych n obserwacji do obliczenia oszacowań początkowych opóźnień autoregresyjnych. W takim przypadku analiza rozpoczyna się od obserwacji n 1. Na przykład: Można użyć makra AR, aby zastosować model autoregresyjny do zmiennej endogenicznej, zamiast do terminu błędu, za pomocą opcji TYPEV. Na przykład, jeśli chcesz dodać pięć ostatnich opóźnień Y do równania w poprzednim przykładzie, możesz użyć AR do wygenerowania parametrów i opóźnień za pomocą następujących instrukcji: Poprzednie instrukcje generują dane wyjściowe pokazane na rysunku 18.60. Rysunek 18.60 LISTA Opcja Wyjście dla modelu AR Y Ten model przewiduje Y jako liniową kombinację X1, X2, punktu przecięcia i wartości Y w ostatnich pięciu okresach. Nieograniczona autoregresja wektorowa Aby modelować terminy błędów zbioru równań jako proces autoregresyjny wektorów, po równaniach należy użyć następującej postaci makra AR: Wartość processname to dowolna nazwa, którą podaje się do AR, aby użyć jej przy tworzeniu nazw dla autoregresji parametry. Możesz użyć makra AR do modelowania kilku różnych procesów AR dla różnych zestawów równań, używając różnych nazw procesów dla każdego zestawu. Nazwa procesu zapewnia, że ​​używane nazwy zmiennych są niepowtarzalne. Użyj krótkiej wartości processname dla procesu, jeśli prognozy parametrów mają zostać zapisane w zestawie danych wyjściowych. Makro AR próbuje skonstruować nazwy parametrów mniejsze lub równe ośmiu znaków, ale jest to ograniczone przez długość nazwy procesu. który jest używany jako prefiks dla nazw parametrów AR. Wartość variablelist jest listą zmiennych endogenicznych dla równań. Załóżmy na przykład, że błędy dla równań Y1, Y2 i Y3 są generowane przez proces autoregresyjny wektora drugiego rzędu. Możesz użyć następujących instrukcji: które generują następujące dla Y1 i podobny kod dla Y2 i Y3: Tylko metoda warunkowych najmniejszych kwadratów (MCLS lub MCLS n) może być użyta do procesów wektorowych. Możesz również użyć tej samej formy z ograniczeniami, że macierz współczynników wynosi 0 w wybranych opóźnieniach. Na przykład, poniższe instrukcje stosują proces wektorowy trzeciego rzędu do błędów równania ze wszystkimi współczynnikami w opóźnieniu 2 ograniczonym do 0 i ze współczynnikami w opóźnieniach 1 i 3 nieograniczony: Możesz modelować trzy serie Y1Y3 jako wektor autoregresyjny w zmiennych zamiast w błędach za pomocą opcji TYPEV. Jeśli chcesz modelować Y1Y3 jako funkcję przeszłych wartości Y1Y3 i niektórych egzogennych zmiennych lub stałych, możesz użyć AR do wygenerowania instrukcji dla warunków opóźnienia. Napisz równanie dla każdej zmiennej dla nieautoregresywnej części modelu, a następnie wywołaj AR z opcją TYPEV. Na przykład: Nieautoregresywna część modelu może być funkcją zmiennych egzogenicznych lub może przechwytywać parametry. Jeśli nie ma elementów egzogennych w wektorowym modelu autoregresji, w tym żadnych przechwyceń, wówczas przypisz zero do każdej ze zmiennych. Musi istnieć przyporządkowanie do każdej zmiennej przed wywołaniem AR. Ten przykład modeluje wektor Y (Y1 Y2 Y3) jako funkcję liniową tylko jego wartości w poprzednich dwóch okresach i wektor błędu szumu białego. Model ma 18 (3 3 3 3) parametrów. Składnia makr AR Istnieją dwa przypadki składni makra AR. Gdy ograniczenia na wektorowym procesie AR nie są potrzebne, składnia makra AR ma formę ogólną określającą prefiks dla AR do użycia przy konstruowaniu nazw zmiennych potrzebnych do zdefiniowania procesu AR. Jeśli endolista nie jest określony, lista endogeniczna przyjmuje domyślną nazwę. która musi być nazwą równania, do którego ma być zastosowany proces błędu AR. Wartość nazwy nie może przekraczać 32 znaków. jest kolejnością procesu AR. Określa listę równań, do których ma być zastosowany proces AR. Jeśli podano więcej niż jedną nazwę, tworzony jest nieograniczony proces wektorowy z resztami strukturalnymi wszystkich równań zawartych jako regresory w każdym z równań. Jeśli nie zostanie określony, endolist domyślnie nazwie. określa listę opóźnień, w których mają zostać dodane warunki AR. Współczynniki terminów w niewystępujących opóźnieniach są ustawione na 0. Wszystkie wymienione opóźnienia muszą być mniejsze lub równe nlag. i nie może być żadnych duplikatów. Jeśli nie jest określony, lista zaludnia przyjmuje domyślnie wszystkie opóźnienia od 1 do nlag. określa metodę szacowania do wdrożenia. Prawidłowe wartości M to CLS (warunkowe estymaty najmniejszych kwadratów), ULS (bezwarunkowe estymaty najmniejszych kwadratów) i ML (szacunki największej wiarygodności). MCLS jest domyślnie. Tylko MCLS jest dozwolone, gdy określono więcej niż jedno równanie. Metody ULS i ML nie są obsługiwane przez AR w wektorowych modelach AR. Określa, że ​​proces AR ma być stosowany do samych zmiennych endogenicznych, a nie do reszt strukturalnych równań. Ograniczona autoregresja wektorowa Możesz kontrolować, które parametry są uwzględnione w procesie, ograniczając do 0 parametrów, których nie uwzględniasz. Najpierw użyj AR z opcją DEFER, aby zadeklarować listę zmiennych i zdefiniować wymiar procesu. Następnie użyj dodatkowych wywołań AR, aby wygenerować warunki dla wybranych równań z wybranymi zmiennymi w wybranych opóźnieniach. Na przykład Wygenerowane równania błędu są następujące: Ten model stwierdza, że ​​błędy dla Y1 zależą od błędów obu Y1 i Y2 (ale nie Y3) w obu opóźnieniach 1 i 2 oraz że błędy dla Y2 i Y3 zależą od poprzednie błędy dla wszystkich trzech zmiennych, ale tylko w opóźnieniu 1. Składnia makr AR dla ograniczonego wektora AR Alternatywne użycie AR pozwala na nałożenie ograniczeń na proces AR wektorów przez kilkakrotne wywołanie AR w celu określenia różnych warunków AR i opóźnień dla różnych równania. Pierwsze wywołanie ma formę ogólną określającą prefiks dla AR do użycia przy konstruowaniu nazw zmiennych potrzebnych do zdefiniowania procesu AR wektor. określa kolejność procesu AR. Określa listę równań, do których ma być zastosowany proces AR. Określa, że ​​AR nie generuje procesu AR, ale oczekuje na dalsze informacje określone w późniejszych wywołaniach AR dla tej samej wartości nazwy. Kolejne wywołania mają formę ogólną taką samą jak w pierwszym wywołaniu. Określa listę równań, do których mają zastosowanie specyfikacje w tym wywołaniu AR. Tylko nazwy określone w wartości endolistu pierwszego wywołania wartości nazwy mogą pojawić się na liście równań w eqlist. Określa listę równań, których opóźnione reszty strukturalne mają być włączone jako regresory w równaniach w eqlist. Tylko nazwy w końcówce pierwszego wywołania wartości nazwy mogą pojawić się na liście varlist. Jeśli nie zostanie określony, varlist domyślnie będzie endolistą. określa listę opóźnień, w których mają zostać dodane warunki AR. Współczynniki terminów na opóźnieniach niewymienionych na liście są ustawione na 0. Wszystkie wymienione opóźnienia muszą być mniejsze lub równe wartości nlag. i nie może być żadnych duplikatów. Jeśli nie jest określony, laglist domyślnie przyjmuje wszystkie opóźnienia od 1 do nlag. Makro MA Makro MA SAS generuje instrukcje programowania dla MODELU PROC dla modeli średniej ruchomej. Makro MA jest częścią oprogramowania SASETS, a do korzystania z makra nie są potrzebne żadne specjalne opcje. Proces błędu średniej ruchomej można zastosować do błędów równania strukturalnego. Składnia makra MA jest taka sama jak makro AR, z tym że nie ma argumentu TYPE. Gdy używane są makra MA i AR połączone, makro MA musi być zgodne z makrem AR. Następujące instrukcje SASIML generują proces błędu ARMA (1, (1 3)) i zapisują go w zbiorze danych MADAT2. Poniższe instrukcje modelu MODEL są używane do oszacowania parametrów tego modelu za pomocą struktury maksymalnego błędu wiarygodności: Szacunki parametrów wytworzonych przez ten przebieg pokazano na rysunku 18.61. Rysunek 18.61 Szacunki z procesu ARMA (1, (1 3)) Istnieją dwa przypadki składni dla makra MA. Gdy ograniczenia na wektorowym procesie MA nie są potrzebne, składnia makra MA ma ogólną postać określającą przedrostek dla MA do zastosowania w konstruowaniu nazw zmiennych potrzebnych do zdefiniowania procesu MA i jest domyślną endolistą. jest kolejnością procesu MA. Określa równanie, do którego ma zastosowanie proces MA. Jeśli podana jest więcej niż jedna nazwa, oszacowanie CLS jest używane do procesu wektorowego. określa opóźnienia, w których mają zostać dodane warunki umowy o partnerstwie. Wszystkie wymienione opóźnienia muszą być mniejsze lub równe nlag. i nie może być żadnych duplikatów. Jeśli nie jest określony, lista zaludnia przyjmuje domyślnie wszystkie opóźnienia od 1 do nlag. określa metodę szacowania do wdrożenia. Prawidłowe wartości M to CLS (warunkowe estymaty najmniejszych kwadratów), ULS (bezwarunkowe estymaty najmniejszych kwadratów) i ML (szacunki największej wiarygodności). MCLS jest domyślnie. Tylko MCLS jest dozwolona, ​​gdy w endolicie podano więcej niż jedno równanie. Składnia makr MA dla ograniczonej średniej ruchomej wektora Alternatywne wykorzystanie MA pozwala na nałożenie ograniczeń na wektorowy proces MA poprzez kilkukrotne wywołanie MA w celu określenia różnych warunków MA i opóźnień dla różnych równań. Pierwsze wywołanie ma formę ogólną, określającą prefiks dla MA do zastosowania w konstruowaniu nazw zmiennych potrzebnych do zdefiniowania wektora procesu MA. określa kolejność procesu MA. Określa listę równań, do których ma zastosowanie proces MA. określa, że ​​MA nie generuje procesu MA, ale oczekuje na dalsze informacje określone w późniejszych wezwaniach MA dla tej samej wartości nazwy. Kolejne wywołania mają formę ogólną taką samą jak w pierwszym wywołaniu. Określa listę równań, do których mają zastosowanie specyfikacje w niniejszym zaproszeniu MA. Określa listę równań, których opóźnione reszty strukturalne mają być włączone jako regresory w równaniach w eqlist. określa listę opóźnień, w których mają zostać dodane warunki SI. Wprowadzenie do ARIMA: modele niesezonowe Równanie prognostyczne ARIMA (p, d, q): Modele ARIMA są w teorii najbardziej ogólną klasą modeli do prognozowania szeregu czasowego który może być ustawiony na 8220stacja 8221 przez różnicowanie (jeśli to konieczne), być może w połączeniu z nieliniowymi transformacjami, takimi jak rejestracja lub deflacja (jeśli to konieczne). Zmienna losowa, która jest szeregiem czasowym, jest nieruchoma, jeśli jej właściwości statystyczne są stałe w czasie. Seria stacjonarna nie ma trendu, jej wahania wokół średniej mają stałą amplitudę i poruszają się w spójny sposób. tj. jego krótkoterminowe wzorce czasu losowego zawsze wyglądają tak samo w sensie statystycznym. Ten ostatni warunek oznacza, że ​​jego autokorelacje (korelacje z jego własnymi wcześniejszymi odchyleniami od średniej) pozostają stałe w czasie, lub równoważnie, że jego widmo mocy pozostaje stałe w czasie. Zmienna losowa tej postaci może być oglądana (jak zwykle) jako kombinacja sygnału i szumu, a sygnał (jeśli jest widoczny) może być wzorem szybkiej lub wolnej średniej rewersji, lub sinusoidalnej oscylacji, lub szybkiej przemiany w znaku , a także może mieć składnik sezonowy. Model ARIMA może być postrzegany jako 8220filter8221, który próbuje oddzielić sygnał od szumu, a sygnał jest następnie ekstrapolowany w przyszłość w celu uzyskania prognoz. Równanie prognostyczne ARIMA dla stacjonarnych szeregów czasowych jest równaniem liniowym (to jest typu regresyjnym), w którym predyktory składają się z opóźnień zmiennej zależnej i opóźnień błędów prognoz. Oznacza to: Przewidywaną wartość Y stałej stałej lub ważoną sumę jednej lub więcej ostatnich wartości Y i lub ważoną sumę jednej lub więcej ostatnich wartości błędów. Jeśli predykatory składają się tylko z opóźnionych wartości Y., jest to model czysto autoregresyjny (8220a-regressed8221), który jest tylko szczególnym przypadkiem modelu regresji i który może być wyposażony w standardowe oprogramowanie regresyjne. Na przykład, autoregresyjny model pierwszego rzędu (8220AR (1) 8221) dla Y jest prostym modelem regresji, w którym zmienna niezależna jest po prostu Y opóźniona o jeden okres (LAG (Y, 1) w Statgraphics lub YLAG1 w RegressIt). Jeśli niektóre z predyktorów są opóźnieniami błędów, to model ARIMA NIE jest modelem regresji liniowej, ponieważ nie ma sposobu, aby określić 8220last okres8217s błąd8221 jako zmienną niezależną: błędy muszą być obliczane na podstawie okresu do okresu kiedy model jest dopasowany do danych. Z technicznego punktu widzenia problem z wykorzystaniem opóźnionych błędów jako czynników predykcyjnych polega na tym, że przewidywania model8217 nie są liniowymi funkcjami współczynników. mimo że są liniowymi funkcjami przeszłych danych. Współczynniki w modelach ARIMA, które zawierają opóźnione błędy, muszą być oszacowane przez nieliniowe metody optymalizacji (8220hill-climbing8221), a nie przez samo rozwiązanie układu równań. Akronim ARIMA oznacza Auto-Regressive Integrated Moving Average. Lagi ze stacjonarnej serii w równaniu prognostycznym są nazywane "wartościami dodatnimi", opóźnienia błędów prognoz są nazywane "przesunięciem średniej", a szeregi czasowe, które muszą być różnicowane, aby stały się stacjonarne, są uważane za "podzielone" wersje stacjonarnej serii. Modele Random Walk i Random-Trend, modele autoregresyjne i modele wygładzania wykładniczego są szczególnymi przypadkami modeli ARIMA. Niesezonowy model ARIMA jest klasyfikowany jako model DAIMIMA (p, d, q), gdzie: p to liczba terminów autoregresyjnych, d to liczba niesezonowych różnic potrzebnych do stacjonarności, a q to liczba opóźnionych błędów prognozy w równanie predykcji. Równanie prognostyczne jest skonstruowane w następujący sposób. Po pierwsze, niech y oznacza różnicę d Y. Oznacza to: Zwróć uwagę, że druga różnica Y (przypadek d2) nie jest różnicą od 2 okresów temu. Jest to raczej różnica między pierwszą a różnicą. który jest dyskretnym analogiem drugiej pochodnej, tj. lokalnym przyspieszeniem szeregu, a nie jego lokalnym trendem. Pod względem y. ogólne równanie prognostyczne jest następujące: Tutaj parametry średniej ruchomej (9528217 s) są zdefiniowane w taki sposób, że ich znaki są ujemne w równaniu, zgodnie z konwencją wprowadzoną przez Boxa i Jenkinsa. Niektórzy autorzy i oprogramowanie (w tym język programowania R) definiują je, aby zamiast tego mieli znaki plus. Kiedy rzeczywiste liczby są podłączone do równania, nie ma dwuznaczności, ale ważne jest, aby wiedzieć, którą konwencję używa twoje oprogramowanie podczas odczytu danych wyjściowych. Często parametry są tam oznaczone przez AR (1), AR (2), 8230 i MA (1), MA (2), 8230 itd. Aby zidentyfikować odpowiedni model ARIMA dla Y. zaczynasz od określenia kolejności różnicowania (d) konieczność stacjonowania serii i usunięcia ogólnych cech sezonowości, być może w połączeniu z transformacją stabilizującą warianty, taką jak rejestracja lub deflacja. Jeśli zatrzymasz się w tym momencie i będziesz przewidywał, że zróżnicowana seria jest stała, dopasowałeś jedynie model losowego spaceru lub losowego trendu. Jednak stacjonarne serie mogą nadal mieć błędy związane z auto - korelacjami, co sugeruje, że w równaniu prognostycznym potrzebna jest również pewna liczba terminów AR (p 8805 1) i kilka warunków MA (q 8805 1). Proces określania wartości p, d i q, które są najlepsze dla danej serii czasowej, zostanie omówiony w dalszych sekcjach notatek (których linki znajdują się na górze tej strony), ale podgląd niektórych typów nietypowych modeli ARIMA, które są powszechnie spotykane, podano poniżej. ARIMA (1,0,0) Model autoregresyjny pierwszego rzędu: jeśli seria jest stacjonarna i autokorelowana, być może można ją przewidzieć jako wielokrotność jej poprzedniej wartości plus stałą. Równanie prognostyczne w tym przypadku wynosi 8230, co samo w sobie cofnęło się Y o jeden okres. Jest to model 8220ARIMA (1,0,0) constant8221. Jeżeli średnia z Y wynosi zero, wówczas nie zostałoby uwzględnione stałe wyrażenie. Jeśli współczynnik nachylenia 981 1 jest dodatni i mniejszy niż 1 w skali (musi być mniejszy niż 1 w wielkości, jeśli Y jest nieruchomy), model opisuje zachowanie polegające na odwróceniu średniej, w którym należy przypisać wartość kolejnego okresu 817 razy 981 razy jako daleko od średniej, jak ta wartość okresu. Jeżeli 981 1 jest ujemny, przewiduje zachowanie średniej odwrócenia z naprzemiennością znaków, tj. Przewiduje również, że Y będzie poniżej średniego następnego okresu, jeśli jest powyżej średniej tego okresu. W modelu autoregresyjnym drugiego rzędu (ARIMA (2,0,0)), po prawej stronie pojawi się również termin Y t-2 i tak dalej. W zależności od znaków i wielkości współczynników, model ARIMA (2,0,0) może opisywać układ, którego średnia rewersja zachodzi w sposób oscylacyjny sinusoidalnie, podobnie jak ruch masy na sprężynie poddanej losowym wstrząsom . Próba losowa ARIMA (0,1,0): Jeśli seria Y nie jest nieruchoma, najprostszym możliwym modelem jest model losowego spaceru, który można uznać za ograniczający przypadek modelu AR (1), w którym autoregresyjny Współczynnik jest równy 1, tzn. szeregowi z nieskończenie powolną średnią rewersją. Równanie predykcji dla tego modelu można zapisać jako: gdzie stałym terminem jest średnia zmiana okresu do okresu (tj. Dryf długoterminowy) w Y. Ten model może być dopasowany jako model regresji bez przechwytywania, w którym pierwsza różnica Y jest zmienną zależną. Ponieważ zawiera on (tylko) niesezonową różnicę i stały termin, jest klasyfikowany jako model DAIMA (0,1,0) ze stałą. Często Modelem bezładnego spaceru byłby ARIMA (0,1; 0) model bez stałego ARIMA (1,1,0) różny model autoregresyjny pierwszego rzędu: Jeśli błędy modelu chodzenia swobodnego są autokorelowane, być może problem można rozwiązać, dodając jedno opóźnienie zmiennej zależnej do równania predykcji - - to znaczy przez regresję pierwszej różnicy Y, która sama w sobie jest opóźniona o jeden okres. To przyniosłoby następujące równanie predykcji: które można przekształcić na To jest autoregresyjny model pierwszego rzędu z jednym rzędem niesezonowego różnicowania i stałym terminem - tj. model ARIMA (1,1,0). ARIMA (0,1,1) bez stałego prostego wygładzania wykładniczego: Inna strategia korekcji błędów związanych z autokorelacją w modelu losowego spaceru jest zasugerowana przez prosty model wygładzania wykładniczego. Przypomnijmy, że w przypadku niektórych niestacjonarnych szeregów czasowych (na przykład takich, które wykazują głośne wahania wokół wolno zmieniającej się średniej), model chodzenia losowego nie działa tak dobrze, jak średnia ruchoma wartości z przeszłości. Innymi słowy, zamiast brać ostatnią obserwację jako prognozę następnej obserwacji, lepiej jest użyć średniej z ostatnich kilku obserwacji, aby odfiltrować hałas i dokładniej oszacować średnią miejscową. Prosty model wygładzania wykładniczego wykorzystuje wykładniczo ważoną średnią ruchomą przeszłych wartości, aby osiągnąć ten efekt. Równanie predykcji dla prostego modelu wygładzania wykładniczego można zapisać w wielu matematycznie równoważnych formach. jedną z nich jest tak zwana forma 8220, korekta zera 8221, w której poprzednia prognoza jest korygowana w kierunku popełnionego błędu: Ponieważ e t-1 Y t-1 - 374 t-1 z definicji, można to przepisać jako : co jest równaniem ARIMA (0,1,1) - bez stałej prognozy z 952 1 1 - 945. Oznacza to, że możesz dopasować proste wygładzanie wykładnicze, określając je jako model ARIMA (0,1,1) bez stała, a szacowany współczynnik MA (1) odpowiada 1-minus-alfa w formule SES. Przypomnijmy, że w modelu SES średni wiek danych w prognozach z wyprzedzeniem 1 roku wynosi 1 945. Oznacza to, że będą one pozostawać w tyle za trendami lub punktami zwrotnymi o około 1 945 okresów. Wynika z tego, że średni wiek danych w prognozach 1-okresowych modelu ARIMA (0,1,1) - bez stałej wynosi 1 (1 - 952 1). Tak więc, na przykład, jeśli 952 1 0.8, średnia wieku wynosi 5. Ponieważ 952 1 zbliża się do 1, ARIMA (0,1,1) - bez stałego modelu staje się bardzo długookresową średnią ruchomą, a jako 952 1 zbliża się do 0, staje się modelem losowego chodzenia bez dryfu. Jaki jest najlepszy sposób korekcji autokorelacji: dodawanie terminów AR lub dodawanie terminów MA W dwóch poprzednich modelach omówionych powyżej, problem związanych z autokorelacją błędów w modelu losowego spaceru ustalono na dwa różne sposoby: przez dodanie opóźnionej wartości różnej serii do równania lub dodanie opóźnionej wartości błędu prognozy. Które podejście jest najlepsze Zasada praktyczna dla tej sytuacji, która zostanie omówiona bardziej szczegółowo w dalszej części, polega na tym, że pozytywna autokorelacja jest zwykle najlepiej traktowana przez dodanie do modelu warunku AR, a negatywna autokorelacja jest zwykle najlepiej traktowana przez dodanie Termin magisterski. W biznesowych i ekonomicznych szeregach czasowych negatywna autokorelacja często pojawia się jako artefakt różnicowania. (Ogólnie rzecz biorąc, różnicowanie zmniejsza pozytywną autokorelację, a nawet może spowodować przełączenie z autokorelacji dodatniej na ujemną). Tak więc model ARIMA (0,1,1), w którym różnicowanie jest połączone z terminem MA, jest częściej używany niż Model ARIMA (1,1,0). ARIMA (0,1,1) o stałym prostym wygładzaniu wykładniczym ze wzrostem: Dzięki wdrożeniu modelu SES jako modelu ARIMA można uzyskać pewną elastyczność. Po pierwsze, szacowany współczynnik MA (1) może być ujemny. odpowiada to współczynnikowi wygładzania większemu niż 1 w modelu SES, co zwykle nie jest dozwolone w procedurze dopasowania modelu SES. Po drugie, masz możliwość włączenia stałego warunku w modelu ARIMA, jeśli chcesz, aby oszacować średni niezerowy trend. Model ARIMA (0,1,1) ze stałą ma równanie prognozy: prognozy jednokresowe z tego modelu są jakościowo podobne do tych z modelu SES, z tym że trajektoria prognoz długoterminowych jest zwykle linia nachylenia (której nachylenie jest równe mu) zamiast linii poziomej. ARIMA (0,2,1) lub (0,2,2) bez stałego liniowego wygładzania wykładniczego: liniowe modele wygładzania wykładniczego są modelami ARIMA, które wykorzystują dwie niesezonowe różnice w połączeniu z terminami MA. Druga różnica w serii Y nie jest po prostu różnicą między Y a nią opóźnioną o dwa okresy, ale raczej jest pierwszą różnicą pierwszej różnicy - a. e. zmiana w Y w okresie t. Tak więc druga różnica Y w okresie t jest równa (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Druga różnica funkcji dyskretnej jest analogiczna do drugiej pochodnej funkcji ciągłej: mierzy ona przyspieszenie cytadania lub inną krzywiznę w funkcji w danym punkcie czasu. Model ARIMA (0,2,2) bez stałej przewiduje, że druga różnica szeregu równa się funkcji liniowej dwóch ostatnich błędów prognozy: która może być uporządkowana jako: gdzie 952 1 i 952 2 to MA (1) i Współczynniki MA (2). Jest to ogólny liniowy model wygładzania wykładniczego. w zasadzie taki sam jak model Holt8217s, a model Brown8217s to szczególny przypadek. Wykorzystuje wykładniczo ważone średnie ruchome do oszacowania zarówno lokalnego poziomu, jak i lokalnego trendu w serii. Długoterminowe prognozy z tego modelu zbiegają się do linii prostej, której nachylenie zależy od średniej tendencji obserwowanej pod koniec serii. ARIMA (1,1,2) bez stałego liniowego tłumienia wykładniczego. Ten model jest zilustrowany na załączonych slajdach w modelach ARIMA. Ekstrapoluje lokalny trend na końcu serii, ale spłaszcza go na dłuższych horyzontach prognozy, wprowadzając nutę konserwatyzmu, praktykę, która ma empiryczne wsparcie. Zobacz artykuł na ten temat: "Dlaczego działa Damped Trend" autorstwa Gardnera i McKenziego oraz artykuł "Zgodny z legendą" Armstronga i in. dla szczegółów. Ogólnie zaleca się trzymać modele, w których co najmniej jedno z p i q jest nie większe niż 1, tj. Nie próbować dopasować modelu takiego jak ARIMA (2,1,2), ponieważ może to prowadzić do przeuczenia oraz pytania o współczynniku równomolowym, które omówiono bardziej szczegółowo w uwagach dotyczących struktury matematycznej modeli ARIMA. Implementacja arkusza kalkulacyjnego: modele ARIMA, takie jak opisane powyżej, można łatwo wdrożyć w arkuszu kalkulacyjnym. Równanie predykcji jest po prostu równaniem liniowym, które odnosi się do przeszłych wartości pierwotnych szeregów czasowych i przeszłych wartości błędów. W ten sposób można skonfigurować arkusz kalkulacyjny prognozowania ARIMA, przechowując dane w kolumnie A, formułę prognozowania w kolumnie B oraz błędy (dane minus prognozy) w kolumnie C. Formuła prognozowania w typowej komórce w kolumnie B byłaby po prostu wyrażenie liniowe odnoszące się do wartości w poprzednich wierszach kolumn A i C, pomnożone przez odpowiednie współczynniki AR lub MA zapisane w komórkach w innym miejscu arkusza kalkulacyjnego. ARIMA Prognozowanie za pomocą Excela i R Hello Dzisiaj przedstawię wprowadzenie do Model ARIMA i jego komponenty, a także krótkie objaśnienie metody Box-Jenkinsa, jak określono modele ARIMA. Wreszcie, stworzyłem implementację programu Excel przy użyciu R, który I8217ll pokazuje, jak skonfigurować i używać. Modele Autoregressive Moving Average (ARMA) Model Autoregressive Moving Average służy do modelowania i prognozowania stacjonarnych, stochastycznych procesów szeregów czasowych. Jest to połączenie dwóch wcześniej opracowanych technik statystycznych, modeli Autoregressive (AR) i Moving Average (MA) i zostało pierwotnie opisane przez Petera Whittle'a w 1951 roku. George E. P. Box i Gwilym Jenkins spopularyzowali model w 1971 roku, określając dyskretne kroki w celu identyfikacji modelu, oszacowania i weryfikacji. Proces ten zostanie opisany później w celach informacyjnych. Zaczniemy od wprowadzenia modelu ARMA przez jego różne komponenty, modele AR i MA, a następnie zaprezentujemy popularne uogólnienie modelu ARMA, ARIMA (Autoregressive Integrated Moving Average) oraz prognozy i etapy specyfikacji modelu. Na koniec wytłumaczę utworzoną przeze mnie implementację Excela i sposób jej wykorzystania do przygotowania prognoz serii czasowych. Modele autoregresyjne Model autoregresyjny służy do opisywania procesów losowych i procesów zmiennych w czasie i określa, że ​​zmienna wyjściowa zależy liniowo od poprzednich wartości. Model jest opisany jako: Xt c sum varphii, Xt-i varepsilont Gdzie varphi1, ldots, varphivarphi są parametrami modelu, C jest stałe, a varepsilont jest terminem białego szumu. Zasadniczo to, co opisuje model, dotyczy dowolnej wartości X (t). można to wytłumaczyć funkcjami jego poprzedniej wartości. Dla modelu z jednym parametrem, varphi 1. X (t) jest wyjaśnione przez jego poprzednią wartość X (t-1) i losowy błąd varepsilont. Dla modelu z więcej niż jednym parametrem, na przykład varphi 2. X (t) jest podane przez X (t-1). X (t-2) i przypadkowy błąd varepsilont. Model średniej ruchomej Model średniej ruchomej (MA) jest często używany do modelowania jednowymiarowych szeregów czasowych i jest definiowany jako: Xt mu varepsilont theta1, varepsilon ldots thetaq, varepsilon mu jest średnią serii czasowych. theta1, ldots, thetaq są parametrami modelu. varepsilont, varepsilon, ldots są terminami błędu białego szumu. q jest kolejnością modelu średniej ruchomej. Model średniej ruchomej jest regresją liniową bieżącej wartości szeregu w porównaniu do warunków varepsilont w poprzednim okresie, t. varepsilon. Na przykład, model MA q 1. X (t) jest wyjaśniony przez bieżący błąd varepsilont w tym samym okresie i wartość błędu przeszłego, varepsilon. Dla modelu rzędu 2 (q 2), X (t) jest wyjaśnione przez dwie ostatnie wartości błędu: varepsilon i varepsilon. Terminy AR (p) i MA (q) są stosowane w modelu ARMA, który zostanie teraz wprowadzony. Autoregresyjny model średniej ruchomej Autoregresyjny model średniej ruchomej wykorzystuje dwa wielomiany, AR (p) i MA (q) i opisuje stacjonarny proces stochastyczny. Proces stacjonarny nie zmienia się po przesunięciu w czasie lub przestrzeni, dlatego proces stacjonarny ma stałą średnią i wariancję. Model ARMA jest często określany jako wielomian, ARMA (p, q). Zapisuje się oznaczenie modelu: Xt c varepsilont sum varphi1 X sum thetai varepsilon Wybór, oszacowanie i weryfikacja modelu jest opisana w procesie Box-Jenkinsa. Metoda Box-Jenkinsa do identyfikacji modelu Poniżej znajduje się bardziej zarys metody Box-Jenkins, ponieważ faktyczny proces znajdowania tych wartości może być dość przytłaczający bez pakietu statystycznego. Arkusz Excel zawarty na tej stronie automatycznie określa najlepiej dopasowany model. Pierwszym krokiem metody Box-Jenkins jest identyfikacja modelu. Krok ten obejmuje identyfikację sezonowości, różnicowanie w razie potrzeby i określenie kolejności p i q poprzez wykreślenie funkcji autokorelacji i częściowej autokorelacji. Po zidentyfikowaniu modelu, kolejnym krokiem jest oszacowanie parametrów. Oszacowanie parametrów wykorzystuje pakiety statystyczne i algorytmy obliczeniowe w celu znalezienia najlepszych parametrów dopasowania. Po wybraniu parametrów, ostatnim krokiem jest sprawdzenie modelu. Sprawdzanie modelu odbywa się poprzez testowanie, aby sprawdzić, czy model jest zgodny ze stacjonarnymi jednowymiarowymi szeregami czasowymi. Należy również potwierdzić, że reszty są od siebie niezależne i wykazują stałą średnią i wariancję w czasie, co można osiągnąć przez wykonanie testu Ljung-Box lub ponowne naniesienie autokorelacji i częściowej autokorelacji reszt. Zauważ, że pierwszy krok polega na sprawdzeniu sezonowości. Jeśli dane, z którymi pracujesz, zawierają sezonowe trendy, możesz 8220 różnić8221, aby dane stały. Ten etap różnicowania uogólnia model ARMA na model ARIMA lub Autoregresyjną zintegrowaną średnią ruchomą, gdzie 8216Integrated8217 odpowiada etapowi różnicowania. Autoregressive Integrated Moving Average Models Model ARIMA ma trzy parametry, p, d, q. Aby zdefiniować model ARMA w celu uwzględnienia terminu różnicowego, rozpoczynamy od zmiany standardowego modelu ARMA, aby oddzielić X (t) lateks i lateks od podsumowania. (1 - suma alfai Li) Xt (1 suma thetai Li) varepsilont Gdzie L jest operatorem opóźnienia i alfą. thetai. varepsilont to odpowiednio autoregresyjne i ruchome parametry oraz terminy błędów. Przyjmujemy teraz założenie, że pierwszy wielomian funkcji (1 - suma alfai Li) ma jednorodny pierwiastek o krotności d. Możemy następnie przepisać go na następujący: Model ARIMA wyraża wielomianową faktoryzację za pomocą pp-d i podaje nam: (1 - suma phii Li) (1 - L) d Xt (1 suma thetai Li) varepsilont Wreszcie, generalizujemy model dalej, dodając termin dryfu, który definiuje model ARIMA jako ARIMA (p, d, q) z przesunięciem frac. (1 - suma phii Li) (1 - L) d Xt delta (1 suma thetai Li) varepsilont Przy obecnie zdefiniowanym modelu możemy zobaczyć model ARIMA jako dwie oddzielne części, jedną niestacjonarną i drugą szeroką - stacjonarną (wspólny rozkład prawdopodobieństwa nie zmienia się po przesunięciu w czasie lub przestrzeni). Model niestacjonarny: model stacjonarny o szerokim znaczeniu: (1 - suma phii Li) Yt (1 suma thetai Li) varepsilont Prognozy można teraz wykonać na Yt za pomocą uogólnionej autoregresyjnej metody prognozowania. Teraz, gdy omówiliśmy modele ARMA i ARIMA, teraz sięgamy do tego, w jaki sposób możemy ich używać w praktycznych aplikacjach do prognozowania. Zbudowałem implementację za pomocą programu Excel, używając R do tworzenia prognoz ARIMA, a także opcję uruchomienia symulacji Monte Carlo na modelu w celu określenia prawdopodobieństwa prognoz. Implementacja i sposób korzystania z programu Excel Przed użyciem arkusza należy pobrać pliki R i RExcel ze strony internetowej Statconn. Jeśli masz już zainstalowany R, możesz po prostu pobrać RExcel. Jeśli nie masz zainstalowanego R, możesz pobrać RAndFriends, który zawiera najnowszą wersję R i RExcel. Uwaga: RExcel działa tylko w 32-bitowym Excelu z niekomercyjną licencją. Jeśli masz zainstalowany 64-bitowy program Excel, będziesz musiał uzyskać komercyjną licencję od Statconn. Zaleca się pobranie RAndFriends, ponieważ umożliwia najszybszą i najłatwiejszą instalację, jednak jeśli masz już R i chciałbyś zainstalować go ręcznie, wykonaj następujące kroki. Ręczne instalowanie programu RExcel Aby zainstalować program RExcel i inne pakiety, aby program R działał w programie Excel, najpierw otwórz system R jako administrator, klikając prawym przyciskiem myszy plik. exe. W konsoli R zainstaluj program RExcel, wpisując następujące instrukcje: Powyższe polecenia zainstalują program RExcel na komputerze. Następnym krokiem jest instalacja programu rcom, który jest kolejnym pakietem firmy Statconn dla pakietu RExcel. Aby to zainstalować, wpisz następujące polecenia, które również automatycznie zainstalują rscproxy z wersji R 2.8.0. Po zainstalowaniu tych pakietów możesz przejść do ustawienia połączenia między R i Excel. Chociaż nie jest to konieczne do instalacji, poręcznym pakietem do pobrania jest Rcmdr, opracowany przez Johna Foxa. Rcmdr tworzy R menu, które może stać się menu w Excelu. Ta funkcja jest domyślnie instalowana przez RAndFriends i udostępnia kilka poleceń R w Excelu. Wpisz następujące polecenia w R, aby zainstalować Rcmdr. Możemy utworzyć link do R i Excela. Uwaga w ostatnich wersjach RExcel to połączenie jest wykonywane za pomocą jednego kliknięcia na dostarczony plik. bat ActivateRExcel2017, więc powinieneś tylko wykonać te kroki, jeśli ręcznie zainstalowałeś R i RExcel lub jeśli z jakiegoś powodu połączenie nie zostanie wykonane podczas instalacja RAndFriends. Utwórz połączenie między R a Excel Otwórz nową książkę w Excelu i przejdź do ekranu opcji. Kliknij Opcje, a następnie Dodatki. Powinieneś zobaczyć listę wszystkich aktywnych i nieaktywnych dodatków, które aktualnie posiadasz. Kliknij przycisk Przejdź na dole. W oknie dialogowym Dodatki zobaczysz wszystkie dodane referencje dodatków. Kliknij Przeglądaj. Przejdź do folderu RExcel, zwykle znajdującego się w C: Program FilesRExcelxls lub coś podobnego. Znajdź dodatek RExcel. xla i kliknij go. Następnym krokiem jest utworzenie odwołania do makr, używając R do poprawnego działania. W dokumencie Excel wpisz Alt F11. Otworzy się edytor Excels VBA. Przejdź do Tools - t References i znajdź referencję RExcel, RExcelVBAlib. RExcel powinien być teraz gotowy do użycia Korzystanie z arkusza Excel Teraz, gdy R i RExcel są poprawnie skonfigurowane, czas na wykonanie prognoz. Otwórz arkusz prognozowania i kliknij Załaduj serwer. Ma to na celu uruchomienie serwera RCom i załadowanie niezbędnych funkcji do prognozowania. Otworzy się okno dialogowe. Wybierz plik itall. R dołączony do arkusza. Ten plik zawiera funkcje używane przez narzędzie do prognozowania. Większość zawartych funkcji została opracowana przez profesora Stoffera z Uniwersytetu w Pittsburghu. Rozszerzają możliwości R i dostarczają nam pomocne wykresy diagnostyczne wraz z wynikami prognozowania. Istnieje również funkcja automatycznego określania najlepszych parametrów dopasowania modelu ARIMA. Po załadowaniu serwera wprowadź dane w kolumnie Dane. Wybierz zakres danych, kliknij prawym przyciskiem myszy i wybierz Zakres nazwy. Nazwij zakres jako dane. Następnie ustaw częstotliwość swoich danych w komórce C6. Częstotliwość odnosi się do okresów danych. Jeśli jest to co tydzień, częstotliwość wynosi 7. Miesięcznie byłoby 12, a kwartalne 4, i tak dalej. Wprowadź okresy wyprzedzające do prognozy. Należy zauważyć, że modele ARIMA stają się dość niedokładne po kilku kolejnych prognozach częstotliwości. Dobrą zasadą jest, aby nie przekroczyć 30 kroków, które mogłyby być raczej niewiarygodne. To zależy również od wielkości zbioru danych. Jeśli masz ograniczone dane, zaleca się wybrać mniejszą liczbę kroków do przodu. Po wprowadzeniu danych, nazwaniu ich i ustawieniu żądanej częstotliwości oraz krokach do prognozowania, kliknij Uruchom. Przetwarzanie prognozy może trochę potrwać. Po zakończeniu otrzymasz przewidywane wartości pod podanym numerem, standardowy błąd wyników i dwa wykresy. Lewa to przewidywana wartość naniesiona na dane, natomiast prawa zawiera podręczną diagnostykę ze standaryzowanymi resztami, autokorelację reszt, wykres gg pozostałości i wykres statystyczny Ljung-Box, aby ustalić, czy model jest dobrze dopasowany. Nie będę wdawał się w zbyt szczegółowe informacje na temat tego, jak szukasz dobrze dopasowanego modelu, ale na wykresie ACF nie chcesz żadnych (lub wielu) opóźnień skokowych przekraczających przerywaną niebieską linię. Na wykresie Gg im więcej okręgów przechodzi przez linię, tym bardziej normalizowany i lepiej dopasowany jest model. W przypadku większych zestawów danych może to przekraczać wiele kręgów. Wreszcie, test Ljung-Box jest sam w sobie artykułem, im więcej kręgów znajduje się powyżej przerywanej niebieskiej linii, tym lepszy jest model. Jeśli wynik diagnostyki nie wygląda dobrze, możesz spróbować dodać więcej danych lub zacząć od innego punktu znajdującego się bliżej zakresu, który chcesz przewidzieć. Możesz łatwo wyczyścić wygenerowane wyniki, klikając przyciski Wyczyść prognozowane wartości. I to jest obecnie. W kolumnie daty nie robi się nic poza odniesieniem, ale nie jest to konieczne dla tego narzędzia. Jeśli znajdę czas, wrócę i dodam, że wyświetlany wykres pokazuje prawidłową godzinę. Możesz również otrzymać błąd podczas uruchamiania prognozy. Jest to zwykle spowodowane funkcją, która znajduje najlepsze parametry, nie jest w stanie określić właściwej kolejności. Możesz wykonać powyższe kroki, aby lepiej uporządkować swoje dane, aby funkcja działała. Mam nadzieję, że skorzystasz z narzędzia, które zaoszczędziło mi dużo czasu w pracy, ponieważ teraz wszystko, co muszę zrobić, to wprowadzić dane, załadować serwer i uruchomić go. Mam również nadzieję, że to pokazuje jak niesamowity może być R, szczególnie gdy używa się go z front-endem, takim jak Excel. Kod, arkusz programu Excel i plik. bas są również dostępne na GitHub tutaj.

No comments:

Post a Comment