Os Grandes Numeros

Big Data sem nexo
54
9

Ontem, na minha habitual –  e obrigatória – caminhada a pé com a Cristina, e depois de nos cruzarmos com uma pessoa que ia a fumar, o cheiro do tabaco ficou no ar durante vinte a trinta metros do percurso. Naqueles breves instantes, só pensei se a meio do cheiro do tabaco não poderia vir  um vírus SARS-CoV-2  escondido.

E para quem ainda não percebeu, a questão é se me cheirava a tabaco, o fumo, e eventualmente outra coisa qualquer, tinha-me entrado pelas narinas, e assim sendo, será que  haveria  alguma probabilidade de ser infetado?

A Geoestatística diz que não, e só por isso, fiquei muito mais descansado.

Há dois anos que estudo a implementação de algoritmos Geoestatísticos em fenómenos reais. E para quem ainda não conhece, a Geoestatística, ou Estatística Espacial, baseia-se na interpretação de amostragens de eventos Zi reais sobre uma superfície geográfica de coordenadas (xi,yi).

Imagine-se  um grande número de locais onde acontecem determinados eventos reais, a Geoestatística permite estimar um evento em qualquer ponto desconhecido com uma determinada certeza. Na prática, e se utilizamos por exemplo, um dos métodos de regressão mais conhecido como o Kriging, sabe-se que, com alguma certeza, que os eventos em locais diferentes podem ter valores diferentes, mas os mais próximos são mais iguais que os mais distantes. Simples de perceber para o caso do vírus? Julgo que sim.

O grande problema é que na Geoestatística é tudo uma questão de escala, isto é, tudo depende da resolução das células de uma matriz, que pode representar milímetros ou quilómetros da superfície terrestre. E só para se ter a noção do número de cálculos envolvidos, se utilizarmos pequenas áreas de 5m por 5m, uma só matriz, ou seja, um só evento na Ilha da Madeira pode conter mais 66 milhões de células, números esses que correlacionados com outros três ou quatro eventos conexos aproximar-se-iam dos 20 biliões de dados, isto é, números que representam outros tantos dados reais  que precisam também de ser analisados e calculados.

E já todos percebemos que em situações de alarme de fenómenos extremos como Aluviões, ou outros, é essencial que a velocidade de análise dos dados e respetiva modelação seja o mais rápido possível para que seja minimamente preditivo, por isso, é determinante que se calcule tudo isto em tempo útil, isto é, umas horas antes de ocorrerem.

Ao longo de anos já aprendemos que, neste tipo de fenómenos  imprevisíveis, é mais importante que se combine e se correlacione vários tipos de dados geofísicos, ou seja, é mais pertinente possuir diversos tipos de dados correlacionáveis do que grandes quantidades de dados históricos de um só evento.

E por tudo o que acima foi dito, percebe-se que  não existe um numero de  fenómenos extremos iguais que permitam suportar qualquer conclusão estatística, e assim sendo, é mais correto prever precocemente a ocorrência deste tipo de fenómenos  com base em dados em tempo real, do que supor que o intervalo de ocorrência seja de 100 anos, mais ano, menos ano.

Com tantos biliões de números é evidente que estes cálculos só se resolvem recorrendo ao conhecido conceito de Big Data, que como se sabe, não é uma solução, mas sim uma grande dor de cabeça para os que implementam Sistemas de Informação.