O analiză statistică a epidemiei COVID-19 în România în context global
Prezenta analiză se adresează îndeosebi cititorului care este familiarizat cu limbajul statisticii, cu descifrarea graficelor și a tabelelor. Sper că cei care vor întâmpina dificultăți în parcurgerea relativ aridă a analizei vor putea profita măcar de partea finală, de concluziile textului care urmează.
1. Câte cazuri de COVID-19 avem?
S-au scurs aproape două luni de la apariția primului caz COVID-19 înregistrat pe teritoriul României, timp în care numărul de persoane infectate anunțat de autorități a depășit nivelul de 11,000 de cazuri. Mai mult ca sigur această cifră este semnificativ mai mică decât cea reală având în vedere (1) capacitatea insuficientă de testare, (2) absența testării aleatorii, (3) existența pacienților asimptomatici care împrăștie virusul fără a fi conștienți, și (4) fluxul cetățenilor români de peste hotare care au tot revenit din zone ale Europei masiv afectate de COVID-19. Așa stând lucrurile, din păcate este imposibil de știut numărul precis de persoane infectate cu COVID-19 la noi în țară (ca și în alte țări, de altfel), mai ales în timp real. Tot ce avem este doar o cifră inexactă. Cu toate acestea, putem totuși ghici cât de cât gravitatea situației comparând condițiile din România cu cele din alte țări care și-au testat mai extensiv populația.
Dintre cei patru factori enumerați mai sus care influențează identificarea numărului de persoane infectate, pesemne că magnitudinea testării populației este cel mai important. Să luăm exemplul SUA. De la aproximativ “doar” 14 de mii de cazuri înregistrate pe data de 20 martie, această țară a confirmat până în prezent aproape un milion de persoane infectate, reprezentând o treime din toate cazurile din lume. Numărul de teste efectuate a crescut de la circa 140 de mii pe 20 martie la 5.4 milioane pe 27 aprilie (1.7% din populația țării). Aceasta înseamnă că testarea extensivă duce la identificarea a și mai multe cazuri de infectare, un lucru ce era de așteptat. Cu cât mai multe teste, cu atât mai multe cazuri identificate.
Acestă afimație poate fi mai riguros verificată dacă analizăm relația dintre (1) numărul de teste efectuate și (2) numărul de cazuri confirmate în urma acelor teste, în toate țările care au oferit statistici în acest sens (datele referitoare la aceste țări, în număr de 78, au fost agregate de societatea științifică Our World In Data, de la Universitatea din Oxford). Situația se vede cel mai limpede cu un simplu grafic, pe care îl prezentăm mai jos. Axa X reprezintă numărul total de teste efectuate până la data de 24 aprilie, iar axa Y numărul de cazuri confirmate, pe fiecare țară în parte (acestea sunt indicate ca puncte roșii). Întrucât este dificil să comparăm pe același grafic 5.4 milioane de teste din SUA cu, să zicem, doar 152 de mii de teste efectuate în Norvegia, am redus numărul de teste și numărul de cazuri la percentile, un mod convenabil de a normaliza datele.
Ce înseamnă aceasta? Dacă aranjăm numărul de teste efectuate pe țară de la mic la mare și atribuim fiecărui număr o valoare între 0 și 100 în funcție de importanța acestuia în toată populația de numere a testelor efectuate, atunci putem exprima numărul de teste ca percetilă, efectiv ca un scor între 0 și 100 (sau ca o notă între 0 și 10). Cum SUA a efectuat cel mai mare număr de teste din lume, scorul SUA la numărul de teste este 100. Tot așa, cum tot SUA are cel mai mare număr de cazuri COVID-19 confirmat, scorul SUA este, și la acest capitol, de 100 (deși aici, cu cât mai mic scorul, cu atât mai bine). Din acest motiv, poziția SUA în graficul de mai jos este în colțul din drepta sus, adică la punctul 100/100 (punctul albastru). Imediat în proximitatea poziției SUA sunt trei țări încercuite, țări care au testat foarte mult din populație și au avut și ele foarte multe cazuri COVID-19 identificate. Cum era de așteptat, aceste trei țări sunt Spania, Italia și Germania.
Graficul ne indică clar relația statistică lineară dintre numărul de teste și numărul de cazuri. Pe baza datelor celor 78 de țări se vede limpede că în general țările care au efectuat mai multe teste au descoperit mai multe cazuri de infectare cu noul coronavirus. Relația statistică dintre aceste două variabile este suficient de puternică.
Toate țările care se află sub linia statistică diagonală din grafic sunt țări care fie au facut multe teste dar au totuși puține cazuri, fie au facut puține teste dar comparativ cu alte țări au tot puține cazuri. În drepta jos putem observa poziția Vietnam-ului, cea mai “fericită” țară când vine vorba despre noul coronavirus. Vedem că numărul de teste are nota între 7 și 8 (scorul între 70 și 80), dar numărul de cazuri confirmate are nota de nici 1. Aceasta pentru că Vietnam a efectuat aproape 190 de mii de teste, ceea ce este mult la nivel global (cum spuneam, de nota 7-8) dar numărul de cazuri este infim, doar 268. Puțin mai la dreapta, în sus, se află Australia, țară care a efectuat mai multe teste decât Vietnam (circa 470 mii) dar a identificat mai multe cazuri de îmbolnăvire decât Vietnam (aproape 7,000). Din acest motiv poziția Australiei pe axa Y este mai înaltă față de cea a Vietnam-ului.
La polul opus, țările care se află deasupra liniei statistice sunt fie cele care au efectuat multe teste în urma cărora au confirmat multe cazuri, fie țările care au efectuat puține teste dar, relativ vorbind (altfel spus, comparat cu situația celorlalte 77 de țări), tot au multe cazuri. De exemplu, Anglia are o notă similară la teste cu Australia, aproape de 9 (Anglia a efectuat 425 mii de teste față de 470 mii în Australia), dar când vine vorba de numărul de cazuri identificate Anglia este mult deasupra liniei statistice, cu aproximativ 134 de mii de cazuri față de doar 7,000 în Australia.
Țara care o duce cel mai rău, observând aceste date, este fără îndoială Ecuador. Cu doar 23 de mii de teste efectuate, au fost identificate aproape 11 mii de persoane infectate! Acea țară din America de Sud a fost atât de grav afectată de pandemia COVID-19, încât familiile își lasă decedații în sicrie în fața casei pentru a fie ridicate de serviciile publice, întrucât firmele de servicii funerare nu mai fac față. De asemenea, guvernul a început să împartă familiilor sicrie din carton, conform unui reportaj CNN. Ceea ce este teribil, pe lângă tragedia socială prin care trece acea țară, este faptul că Ecuador este o țară situată la Ecuator (de unde și numele) și drept urmare are în permanență temperaturi ridicate (media anuală este de 28 de grade). COVID-19 nu pare a ține prea mult cont de temperatura exterioară, așa că ideea că venirea verii în România va eradica virusul nu pare prea credibilă, cel puțin considerând cazul Ecuadorului.
Revenind la Graficul 1, putem observa că România se află foarte aproape de linia statistică. România a efectuat în jur de 114 mii de teste, ceea ce reprezintă un scor de aproape 60. Pe de altă parte, numărul de cazuri confirmate la noi în țară are tot un scor de 60. Dacă România ar efectua mai multe teste, atunci, conform imaginii revelate de graficul de mai sus, numărul de persoane identificate cu COVID-19 ar fi cu siguranță mai mare. Dar cu cât mai mare este greu de spus pentru că relația dintre numărul de teste și numărul de cazuri identificate (rata de infecție) nu este perfect lineară. Comparația dintre Anglia și Australia ne-a arătat limpede acest lucru – numărul de cazuri este 20 ori mai mare în Anglia decât în Australia deși numărul de teste efectuat în cele două țări este asemănător.
Până în prezent, în România rata de identificare a infecției COVID-19, definită ca proporția dintre numărul de cazuri confirmate și numărul de teste efectuate, este de 8.6%. Cu alte cuvinte, fiecare 1,000 de teste au identificat 86 persoane infectate. În plus, după cum vom vedea mai jos, acest număr a fost stabil în prima parte a lunii aprilie, apoi în scădere moderată. Dacă am împinge lucrurile la o extremă, am putea spune că întrucât gradul de identificare a infecției pe baza testării a fost stabil la noi în țară, în jur de 8.6%, atunci, dacă toată populația ar fi testată peste noapte am avea în jur de 1.65 milioane de cazuri. Este bineînțeles enorm. În România s-au luat măsuri de stăpânire a virusului destul de repede, populația pare a fi conștientă de grozăvia acestei boli (mai ales după ce a văzut cum au decurs lucrurile în ograda surorii sale mai mari, Italia), și în plus multe dintre cazurile raportate au putut fi legate unele de altele, fiind focare de infecție testate mai extensiv și nu cazuri pur aleatoare. O testare complet aleatorie ar fi mult mai relevantă și pesemne că aceasta ar indica grade de infectare mai mici decât acel 8.6% observat. Din aceste motive, numărul de cazuri din România este clar mult mai mic. Dar nici atât de mic precum sugerează datele oficiale.
Pesemne că cea mai acceptabilă estimare a numărului real de cazuri din România ar fi cea derivată din experiența SUA și a Islandei – prima țară a testat cel mai mult ca număr absolut de cetățeni, cealaltă cel mai “adânc”, raportat la populație. SUA a efectuat cel mai mare număr de teste din lume, 5.4 milioane. În urma testelor s-a stabilit că există aproximativ 959 mii de cazuri de persoane infectate, adică 0.29% din populație. Pe de altă parte, Islanda este țara care și-a putut testa cel mai profund populația pentru că este vorba despre doar 339 de mii de locuitori. Cu 13.3% din populație fiind testată (cea mai mare pondere de teste la 100 de locuitori din lume), s-a ajuns la concluzia că 0.52% din locuitori aveau noul coronavirus. Așadar, aplicând aceste cifre în cazul României, am putea conchide că numărul real de cazuri ar fi între 0.29% și 0.52% din populație, adică între 56 de mii și 102 de mii. Luând o medie simplă, ajungem la cifra de aproximativ 79 de mii de cazuri. Acestă “best guess” este de șapte ori mai mare decât cifra anunțată oficial, dar nu pare deloc exagerată dacă ne amintim că testarea la noi în țară a decurs lent și nici nu a fost făcută aleatoriu.
După cum putem observa din Tabelul 1, România are o poziție codașă în rândul țărilor europene când vine vorba de numărul de teste efectuate la 1,000 de locuitori. Doar patru țări au avut un număr și mai mic de teste, și anume Serbia, Ungaria, Grecia și Bulgaria. Pe de altă parte, România nu stă atât de rău cu privire la numărul de cazuri confirmate per 100 de teste efectuate – 8.6, după cum menționam mai sus. Această cifră este sub media europeană de 12.8 cazuri la 100 de teste, și este clar mai încurajatoare dacă o comparăm cu nivelurile din Belgia (22.2) sau Franța (21.2), ca să nu mai spunem Anglia (31 de cazuri confirmate la 100 de teste!).
2. Despre rata de infecție COVID-19
Analiza de mai sus este utilă, dar ea nu ne indică decât faptul că (1) există clar o relație pozitivă între numărul de cazuri identificate și numărul de teste efectuate și că (2) rata de infecție (definită ca numărul de cazuri confirmate per 100 de teste efectuate) variază foarte mult de la o țară la alta. Pentru a avea o imagine completă, este necesar să vedem și evoluția în timp a acestei rate de infecție. Dacă ea a crescut în timp, atunci situația este gravă pentru că aceasta ar însemna că nu numai că un număr tot mai mare de teste a scos la iveală tot mai multe cazuri, dar noul coronavirus se propagă și mai repede. Una este să fie efectuate 100 de teste azi în urma cărora sunt identificate 10 cazuri de infecție, apoi să se repete cele 100 de teste peste X zile și să reiasă tot 10 noi cazuri de infecție, și alta este ca după X zile să reiasă nu 10 ci 30 de cazuri noi.
În anumite țări, rata de infecție a crescut la pas alarmant. Graficele 2 și 3, de exemplu, ne indică situația din SUA și Anglia. Acum aproximativ o lună, la fiecare 100 de persoane testate în SUA 12 erau descoperite a fi infectate cu noul coronavirus. În prezent, la fiecare 100 de persoane testate sunt identificate 18 cazuri de infecție. Aceasta înseamnă că testarea mai amplă descoperă noi cazuri, dar între timp noul coronavirus infecteză oricum tot mai multe persoane în SUA. Dacă virusul s-ar extinde la o rată constantă, s-ar fi vazut doar 12 persoane infectate la fiecare 100 de teste, indiferent de data testării și de numărul de teste efectuate, dar în realitate acest virus se propagă mult mai repede, o bună dovadă a gradului său diabolic de contagiozitate. Totuși, putem observa din Graficul 2 că măcar rata de infecție pare a se fi stabilizat în SUA, după marea creștere din perioada 20 martie-7 aprilie.
Situația este și mai gravă în Anglia, unde s-au efectuat până în prezent aproximativ 426 mii de teste, ceea ce reprezintă 0.6% din populație. Rata de confirmare a infecției în urma testelor din acea țară a crescut de la nici 5% pe 20 martie la 31.4% pe 23 aprilie! Alfel spus, dacă testele inițiale indicau că doar 5% din persoanele testate fuseseră infectate, acum ele arată că o treime din indivizii testați au contractat noul coronavirus. Cum Anglia a fost una dintre țările care au reacționat foarte lent la pandemie (abia pe 23 martie s-a impus carantina totală, deși cu zece zile înainte țara avea deja 500 de cazuri confirmate), această evoluție a situației nici nu este de mirare.
Dincolo de situația alarmantă din SUA și Anglia, putem remarca că gradul de confirmare a infecției la 100 de indivizi testați variază mult de la o țară la alta, fiind de doar 1.8% în Coreea de Sud, 12% în Elveția, 12.5% în Turcia, 8.7% în Japonia, 4.3% în Polonia, Germania 7%, Franța 21.2%, Belgia 22.7% etc. Media ponderată a ratei de infecție a celor 78 de țări era de 11.1% la data de 23 aprilie și de 12.8% pentru țările europene.
Cazul Italiei este foarte revelator. Această țară, efectiv îngenunchiată de COVID-19, a condus una dintre cele mai ample monitorizări a populației ca număr absolut de teste efectuate în Europa – aproape un milion și jumătate de teste efectuate până la data de 23 aprilie (2.4% din populație; pe locul întâi este Germania, cu puțin peste două milioane de teste, sau 2.5% din populație). După cum putem observa din Graficul 4 de mai sus, la finele lunii martie, din 100 de persoane testate circa 22 de italieni erau identificați cu noua boală, pe când în prezent acest important indicator a scăzut la 12, o dovadă încurajatoare că măsurile drastice de limitare a contactului social au început să dea roade.
În Graficul 5 putem observa evoluția gradului de identificare a infecției în perioada 20 martie-23 aprilie în România. Precum în alte țări, acest indicator a crescut și la noi pe măsură ce epidemia a luat amploare, de la puțin peste 3% la aproape 10% la jumatea lunii aprilie. Dar măcar el nu a crescut la fel de vertiginos precum în SUA sau Anglia și, cu o valoare prezentă de 8.6%, se situează sub media europeană de 12.8% menționată mai sus. În plus, este de remarcat faptul că din 4 aprilie rata de infecție din România a intrat într-un declin modest, ceea ce ne poate da speranța că măsurile de distanțare socială sunt eficiente în combaterea epidemiei. În ultimele trei săptămâni fiecare testare a 100 de persoane a scos la iveală în jur de 9 cazuri noi și atâta tot.
3. Evoluția epidemiei COVID-19 în România
Estimarea numărului de persoane infectate cu noul coronavirus este importantă pentru a înțelege magnitudinea problemei și provocărilor sociale, dar poate și mai importantă este viteza de propagare a virusului sau trendul acestuia în timp. Cu ajutorul unor simple tehnici statistico-matematice, putem estima această viteză de extindere a COVID-19 la noi în țară pe baza datelor oficiale difuzate până în prezent, cât de influențate or fi acestea de capacitatea de testare. Cât de rapidă este această viteză, dacă se poate spune așa, este mică, medie, mare, exponențială etc? Câte cazuri de COVID-19 vom vedea în luna mai dacă lucrurile continuă să evolueze precum în ultima lună și jumătate? Când ar putea avea loc cel mai probabil mult-așteptatul vârf al epidemiei? La aceste întrebări vom încerca să răspundem în rândurile de mai jos.
Multe procese din lumea naturală, de la creșterea unei colonii de bacterii până la răspândirea COVID-19, procese care implică schimbare continuă de-a lungul timpului, pot fi descrise cu ajutorul unui tip sau altul de funcție matematică, unele mai simple, altele mai complexe. Există o sumedenie de funcții (lineare, polinomiale, logaritmice etc) și provocarea oricărui statistician este aceea de a identifica funcția care surprinde cel mai fidel dinamica procesului din natură analizat (evoluția epidemiei HIV din SUA anilor 1980, de exemplu, a fost bine capturată prin estimări pe baza funcțiilor polinomiale). Noul coronavirus nu s-a propagat într-un mod haotic ci conform unui proces natural care urmează niște legi de bază. Dacă răspândirea virusului ar fi fost un proces haotic, am vorbi de 5 cazuri noi astăzi, 599 mâine, 40 poimâine, 2,000 răspoimâine, bref cifre complet aleatoare și ca atare inutile pentru orice încercare de a efecuta prognoze.
În realitate, după o perioadă de circa două saptămâni de creștere modestă, numărul cumulativ de cazuri COVID-19 din România a urmat până în prezent o curbă ascendentă foarte clar definită. În presă s-a vorbit despre o creștere exponențială a numărului de cazuri cu noul coronavirus, dar acestă afirmație nu este tocmai exactă – creșterea exponențială presupune o dublare a unui număr oarecare cu fiecare unitate de timp adițională. Cu alte cuvinte, dacă azi am avea 300 de cazuri noi COVID-19, ne-am aștepta ca mâine să vedem 600 de cazuri, poimâine 1,200, răspoimâine 2,400 și tot așa. Dacă creșterea în noile cazuri confirmate zilnic ar fi fost exponențială, de la un caz în prima zi am ajunge la peste 134 de milioane de cazuri după doar patru săptămâni! Așadar, la nivel de zile, creșterea în cazuri COVID-19 din România nu a fost exponențială.
Pe de altă parte, pe intervale de timp săptămânale, creșterea în numărul de cazuri coronavirus a fost mai mult decât exponențială toată luna martie (tipic pentru o epidemie), după cum putem vedea în Tabelul 2 de mai jos. În a doua săptămână a lunii martie, numărul de cazuri confirmate a crescut de peste zece ori față de săptămâna precedentă, apoi a crescut de 2.4 ori, apoi de 4.5 ori, mult mai rapid decât dublarea de la un interval la altul pe care o presupune creșterea exponențială. O veste binevenită este însă faptul că din săptămâna 30 martie-5 aprilie numărul de cazuri a crescut tot mai lent de la o săptămână la alta, iar în ultima saptămână, pentru prima oară de la începutul epidemiei, numărul de cazuri noi a scăzut – nu cu mult, doar cu 6% față de săptămâna precedentă, dar măcar nu a crescut!
Putem privi informația cazurilor de coronavirus din România din două perspective: (1) numărul zilnic de cazuri noi înregistrate, și (2) numărul cumulativ de cazuri de la începutul epidemiei și până la o dată oarecare, exprimat și acesta cu frecvență zilnică. Bineînțeles, este vorba despre una și aceeași informație, numărul cumulativ fiind derivat din numărul zilnic de cazuri noi. Cifrele referitoare la cazurile noi de coronavirus sunt mai ușor de digerat pentru mintea umană întrucât putem lesne identifica zilele cu foarte multe cazuri, zilele cu cazuri mai puține, putem intui oarecum și dacă epidemia ia avânt sau se domolește. Graficul 6 de mai jos ilustrează numărul de cazuri noi anunțate zilnic de la începutul epidemiei COVID-19 în România.
Putem remarca că o mare schimbare a survenit în săptămâna 23-29 martie, săptămână în care au fost raportate 1,327 de noi cazuri față de 294 de cazuri în cele șapte zile precedente. De asemenea putem observa că ziua cea mai “neagră” până în prezent a fost 11 aprilie, când au fost raportate 523 de noi cazuri. Practic într-o singură zi s-au înregistrat mai multe cazuri decât în primele trei saptămâni ale lunii martie la un loc!
Spre deosebire de cifrele privitoare la cazurile depistate zi de zi, cifrele cumulative ne arată mai clar trendul general al epidemiei COVID-19 (Grafic 7). Putem astfel observa că până pe 23 martie numărul de cazuri creștea moderat, apoi, parcă din senin, lucrurile au luat amploare. Ne putem imagina o linie care reflectă creșterea în numărul de cazuri cumulative COVID-19 de la începutul lunii martie și până pe 23 martie. Această linie are un unghi de circa 22 grade, cu alte cuvinte o pantă destul de lină. Aceeași linie, începând de pe 23 martie și până pe 27 aprilie are un unghi de aproximativ 71 de grade – ceea ce înseamnă că viteza de propagare a noului coronavirus efectiv s-a triplat în ultimele cinci saptămâni, față de situația din cele trei săptămâni premergătoare (ceva ce nu poate fi văzut cu ochiul liber doar uitându-ne la graficul cu cazurile noi zi de zi). Este precum am urca un deal blând, apoi urcăm un deal de trei ori mai abrupt.
De ce data de 23 martie a fost un punct de cotitură este o întrebare interesantă. Un prim răspuns este faptul că numărul de teste efectuat zilnic a crescut semnificativ, de la o medie de 1,236 pe zi în perioada 21-25 martie, la o medie de 3,855 pe zi în luna aprilie (practic numărul de teste s-a triplat). Dar această creștere în numărul de teste explică statistic doar 60% din creșterea în numărul de cazuri identificate. Nu este ca și cum fiecare 100 de teste adițioanale identifică un număr fix de persoane infectate. În realitate, după cum am observat mai devreme, numărul de persoane identificate a fi infectate per 100 de teste noi a crescut semnificativ până la începutul lunii aprilie, ceea ce însemnă că creșterea în numărul de cazuri identificate zilnic în general este explicată și de testarea mai activă dar și de răspândirea fundamentală a virusului.
Revenind la Graficul 7, putem observa că numărul cumulativ de cazuri COVID-19 din România a urmat până în prezent o curbă ascendentă mai degrabă decât cele două linii imaginare menționate mai sus. Aceasta este pentru că extinderea epidemiei nu a fost un proces linear. Dacă evoluția infecției ar urma linia din 23 martie și până în prezent, atunci la jumătatea lunii mai ne-am aștepa să observăm un total de 17,000 de cazuri confirmate, iar la finalul lunii mai puțin peste 22,000 de cazuri. Dar cum traiectoria epidemiei a fost o curbă ascendentă, este posibil ca aceste niveluri de îmbolnăviri COVID-19 să fie observate ceva mai devreme.
4. Ce funcție matematică surprinde cel mai corect evoluția epidemiei în România până acum?
Cum estimăm curba matematică din spatele procesului de extindere COVID-19 în România, pe baza informației disponibile în prezent? Funcția care pare a surprinde cel mai corect evoluția acestui fenomen este așa-numita funcție putere. Aceasta are forma Y=aXb, unde Y poate reprezenta numărul de cazuri cumulative de coronavirus într-o anumită zi, iar X este efectiv indicele timpului. Putem considera că începutul epidemiei COVID-19 a avut loc pe data de 2 martie când erau confirmate doar 3 cazuri. Aplicând funcția putere datelor existente, pe data de 2 martie avem Y=3 și X=1, fiind vorba de prima zi. A doua zi, pe 3 martie, fuseseră confirmate 4 cazuri, deci Y=4, și fiind vorba despre a doua zi a epidemiei, X=2. Și tot așa. În data de 27 aprilie au fost 11,339 de cazuri confirmate și începând numărătoarea zilelor scurse de pe 2 martie, data de 27 aprilie reprezintă a 57-a zi. Deci, Y=11,339 și X=57.
Tot ce trebuie să facem este să găsim valorile parametrilor a și b din ecuația de mai sus astfel încât diferența totală dintre curba obținută pe baza acestor parametri și curba de cazuri observată empiric să fie minimă. Sunt multe posibile valori pentru parametrii a și b care să creeze o curbă ascendentă foarte similară cu cea din Graficul 7, dar există un singur set de acești doi parametri care aproximează cel mai corect situația reală. În Graficul 8 de mai jos arătăm curba obținută prin calibrarea datelor de cazuri la funcția putere pe baza informației zilnice dintre 2 martie și 26 aprilie. Se vede cu ochiul liber faptul că numărul de cazuri cumulativ și curba obținută sunt aproape identice (corelația este de 99.5%). Curba aceasta are parametrii a=0.75 și b=2.5.
Marea întrebare este însă, în ce măsură această curbă prezice corect viitorul. Acum că avem parametrii curbei, putem extrapola oricâte zile în viitor dorim și vom ști cam câte cazuri vom fi văzut dacă procesul de propagare a virusului rămâne neschimbat (acesta este “un mare dacă”). Curba estimează aproape 25,000 de cazuri pe 15 mai și puțin peste 40 de mii de cazuri la finalul lunii mai (notă: aceste cifre sunt bazate pe datele oficiale care sunt influențate de capacitatea de testare; după cum am discutat mai devreme, numărul real de cazuri este mai probabil de 5-10 ori mai mare decât cel oficial și din acest motiv prognozele pe baza curbei putere ar trebui înmulțite cu un factor de măcar 5).
Întrucât propagarea noului coronavirus în societate este un proces dinamic, mereu în mișcare, pe măsură ce timpul curge, parametrii funcției putere estimați pe baza datelor de la începutul epidemiei și până la un anume punct în timp încep inevitabil să dea greș în prognozare, în sensul că ori supraestimează situația reală (adică indică tot mai multe cazuri decât cele raportate oficial; asta ne dorim, semnificând o decelerare a epidemiei), ori o subestimează (indică mai puține cazuri decât în realitate; asta clar nu ne dorim, implicând o accelerare a epidemiei). Acesta nu este neapărat un neajuns cât o realitate statistică – viitorul nu este niciodată perfect identic cu trecutul și cu cât prognozăm viitorul mai îndepărtat pe baza unui trecut fix cu atât eroarea estimării devine mai mare în timp. Din acest motiv, unii statisticieni preferă să sacrifice viziunea pe termen mediu-lung pentru exactitatea prognozei pe termen scurt. De exemplu, cercetătorii de la renumita universitate Imperial College London publică în fiecare săptămână prognoze legate de decesele cauzate de noul coronavirus, fereastra de timp pentru prognoză fiind de doar șapte zile. Dar aceasta nu este o prognoză de mare ajutor, oricât de exactă ar fi ea.
Curba estimată mai sus cu siguranță nu va mai fi de folos la un moment dat doar și pentru că ea presupune o creștere necontenită a fenomenului analizat (dacă lucrurile ar demerge exact precum în ultimele 57 de zile și curba identificată ar fi valabilă până la finalul lunii iulie, atunci în acel punct din timp am vedea teoretic 145 de mii de cazuri, ceva puțin probabil). În realitate, având în vedere faptul că autoritățile din România au adoptat relativ timpuriu diverse măsuri de urgență, inclusiv importanta distanțare socială, mai degrabă numărul de infecții se va opri din creștere, apoi va scădea. De fapt, după cum vom vedea în rândurile următoare, epidemia deja dă semne clare de plafonare.
5. Când putem aștepta vârful epidemiei în România?
Deși numărul de cazuri noi raportat zilnic a fost în creștere în ultimele saptămâni, timp în care a existat și ziua de 11 aprilie cu un maxim de 523 de cazuri raportate, este esențial de remarcat că această creștere este mai lentă decât cea de până la începutul lunii aprilie. De fapt, dacă am fi calculat parametrii funcției putere pe baza datelor dintre 2 martie și 4 aprilie, atunci acea curbă ar fi supraestimat numărul de cazuri observat empiric în perioada de după 4 aprilie. Mai precis, ea prognoza aproximativ 14 mii de cazuri la data de 18 aprilie când de fapt numărul de cazuri total nu era de nici 9 mii la acea dată. Aceasta înseamnă că din luna aprilie procesul de propagare a noului coronavirus a început deja să încetinească substanțial, o veste bineînțeles foarte bună.
Dacă presupunem, în mod foarte plauzibil, că numărul de cazuri nu va crește tot mai mult în timp precum sugerat de funcția putere, ci mai degrabă el se va stabiliza și apoi va descrește (cu alte cuvinte epidemia se termină, mai devreme sau mai târziu), atunci putem estima vârful epidemiei pe baza evoluției ratei de creștere în numărul de cazuri zilnice.
Graficul 9 ilustrează numărul de cazuri noi raportate zilnic (linia roșie) și, pentru a vedea mai clar trendul, media mobilă pe 7 zile a numărului de cazuri (linia neagră). Media mobilă este metodă statistică de bază, simplă și fiabilă, pentru a elimina elementul aleatoriu din date și a rămâne doar cu trendul inerent. Cum calculăm media mobilă? Extrem de simplu – de exemplu, la data de 22 aprilie media mobilă pe 7 zile era pur și simplu media aritmetică a numărului de cazuri înregistrate în ultimele 7 zile, incluzând data de 22 aprile (adică media pe zilele 16-22 aprilie). A doua zi, pe 23 aprilie, media mobilă era media aritmetică a numărului de cazuri raportat în zilele 17-23 aprilie. Și tot așa. Media mobilă calculată pe perioada 14 martie-27 aprilie ne indică că numărul de cazuri noi s-a stabilizat, între 300 și 400 de cazuri pe zi. Au existat și zile cu 200 de cazuri și zile cu mai mult de 400 de cazuri, dar în general se vede limpede că numărul de cazuri nu mai crește vertiginos, ci este mai degrabă static (de menționat că diferența dintre cazurile zilnice și media mobilă este complet aleatorie, pe baza unui test statistic, așadar media mobilă își îndeplinește cu succes rolul de a elimina ”zgomotul” statistic și de a revela esența situației; de asemenea, este foarte interesant că această diferență nu este corelată cu numărul de teste zilnic – altfel spus, vârfurile în cazurile zilnice identificate nu se datorează neapărat testării mai ample în acele zile și vice-versa).