Результаты проекта 1.1.1.2/VIAA/1/16/075

Varbūtības modeļi tiek plaši izmantoti dažādu procesu aprakstam un analīzei plašās sfērās kā drošība, riska analīze, rindošanas teorija, datu komunikācija, loģistika, glabāšanas sistēmas utt. Šim mērķim bieži vien tiek izmantoti Markova modeļi. Arvien lielāku popularitāti gūst  ideja ievietot šos modeļus kādā ārējā vidē, kas tiek aprakstīta ar Markova ķēdi ar nepārtrauktu laiku. Tie ir tā saucamie Markova-modulējamie procesi, tas ir dubultslāņa procesi [1]. Un šie procesi arvien vairāk iekaro zinātniskās vides interesi. Tiek risināti gan klasiskie riska teorijas uzdevumi ar ārējās vides ietekmi [2], gan arī specifiski, tādi, kā novērtēt informācijas vecumu kooperatīvā braukšanā [3].

Viens no tāda dubultslāņā tipa modeļiem ir Markova-modulējamās lineārās regresijas modelis.  Markova-modulējamā regresija ietver sevī ideju, ka regresijas modeļa parametri nepaliek nemainīgi visā modeļa apskatīšanas perioda procesā, bet mainās gadījuma veidā ar ārējās vides ietekmi, kas tiek aprakstīta ar Markova ķēdi ar nepārtrauktu laiku un galīgu stāvokļu kopu. Šī modeļa attīstība tika realizēta ar pēcdoktorantūras projekta “Netradicionālie regresijas modeļi transporta modelēšanā” (projekta numurs 1.1.1.2/VIAA/1/16/075) [4], atbalstu. Projekts ir saistīts ar Markova-modulējamās lineārās regresijas modeļa pētīšanu un pielietošanu dažādu uzdevumu risināšanai transporta jomā.

Projekta ietvaros viena no sadarbībām tika veikta ar kompāniju “Rīgas karte”, kas sniedza datus par braucienu validācijām konkrēta tramvaja maršrutā četru mēnešu periodā. Lai aprakstītu modeļa ārējo vidi tika izvēlēti dati par laika apstākļiem Rīgas pilsētā, kas tika apstrādāti no 2006.gada līdz 2017.gadam. Tālāk abas datu kopas tika apstrādātas, agregētas un izmantotas modelēšanas procesā. Tika veikti vairāki eksperimenti. Modeļa prognozēšanas jauda nebija augsta dotajā pētījumā, ko var saistīt ar nepietiekami kvalitatīviem modeļa faktoriem vai ar nepietiekamu faktoru skaitu (acīmredzot, ir faktori, kas ietekmē braucienu validāciju skaitu, kas netika iekļauti modelī). Par vēl vienu iemeslu varētu minēt nepietiekošu izlases apjomu. Kaut gan izlases apjoms par braucienu validāciju skaitu bija ļoti liels (kopā 1048001 novērojumi), taču datu apstrādes gaitā, pateicoties modeļa pieņēmumiem (piemēram, atkarīgais mainīgais Y ir aditīvais pēc laika), datu apjoms tika strauji samazinājies (piemēram, vienā no eksperimentiem – 543 novērojumi). [5]

Pateicoties dotā tematiskā pētījuma realizācijai tika formulēts vēl viens uzdevums, kas bija saistīts ar datu izpētes un sagatavošanas ietvara (framework) izstrādi. Sakarā ar to, ka datu analīzes rezultāti lielā mērā balstās uz datu kvalitāti, kas sagatavoti pirms datu analīzes procesa, datu sagatavošanas posms kļūst par kritisku. Arī datu apstrādes paņēmieni, kas tiek pielietoti pirms modelēšanas stadijas, var ievērojami uzlabot iegūto izlašu kopējo kvalitāti vai laiku, kas nepieciešams faktiskajai analīzei. Un, visbeidzot, datu sagatavošanas un analīzes process, kas ietver daudzus dažādus uzdevumus, nevar būt pilnībā automatizēts. Izpildītā iepriekš tematiskajā pētījumā datu sagatavošanas pasākumi (kas parasti ir rutīnas un bieži vien laikietilpīgi) aizņēma no 60 līdz pat 80 procentiem no visa pētījuma laika. Tāpēc tika nolemts izveidot datu izpētes un sagatavošanas ietvaru priekš Markova-modulējamās lineārās regresijas analīze, kas sevī iekļauj datu izpratni un lielu datu kopu sagatavošanu kopā ar padziļinātu analīzi.  Tika izveidota un aprakstīta datu izpētes un sagatavošanas metodoloģija priekš Markova-modulējamās lineārās regresijas analīzes. Metodoloģija tika ilustrēta uz konkrētām datu kopām, tika izmantota R programmatūra kopā ar bibliotēku komplektu [6].

Vispār projekta ievaros tika izstrādāti divas pakotnes divās dažādās programmēšanas vidēs: R un Python. Pakotnes tika ievietotas publiskajos repozitorijos CRAN [7] un GitHub [8].

LaTDEA atbalsta doto projektu No. 1.1.1.2/VIAA/1/16/075 “Non-traditional regression models in transport modelling”, ko izpilda Nadežda Spiridovska, Transporta un sakaru institūts [9], jo tas palīdz Latvijas zinātniekiem paplašināt sadarbības tīklu, uzlabot prasmes un iegūt jaunas kompetences, palielināt zinātniskās spējas un karjeras iespējas, kas uzlabo kopējo zinātnes līmeni valstī.

Acknowledgement. This work was financially supported by the specific support objective activity 1.1.1.2. “Post-doctoral Research Aid” (Project id. N. 1.1.1.2/16/I/001) of the Republic of Latvia, funded by the European Regional Development Fund. Nadezda Spiridovska research project No. 1.1.1.2/VIAA/1/16/075 “Non-traditional regression models in transport modelling”.

 

  1. Pacheco, A., Tang, L.C., Prabhu, N.U. (2009) Markov-Modulated Processes & Semiregenerative Phenomena. World Scientific, New Jersey – London.
  2. Andronov, Alexander, and Tatjana Jurkina. (2015) Markowitz Problem for a Case of Random Environment Existence. International Workshop on Simulation. Springer, Cham.
  3. Plöger, Daniel, et al. (2019) Markov-modulated models to estimate the age of information in cooperative driving. 2019 IEEE Vehicular Networking Conference (VNC). IEEE.
  4. https://www.researchgate.net/project/Non-traditional-regression-models-in-transport-modelling
  5. Spiridovska N., Yatskiv (Jackiva) I. (2018) Public transport passenger flow analysis and prediction using alternating Markov-modulated linear regression, In 29th European Conference on Operational Research (Euro2018) handbook, p.208
  6. Irina Jackiva (Yatskiv), Nadezda Spiridovska (2019) Data Preparation Framework Development for Markov-Modulated Linear Regression Analysis. In: Kabashkin I., Yatskiv I., Prentkovskis O. (eds) Reliability and Statistics in Transportation and Communication. RelStat 2018. Lecture Notes in Networks and Systems, Springer, Cham (Scopus) DOI: 10.1007/978-3-030-12450-2_17
  7. https://cran.r-project.org/web/packages/MMLR/index.html
  8. https://github.com/NadezdaSpiridovska/MMLR
  9. tsi.lv