Como isso é possível? Esses números indicam que aproximadamente apenas 10% dos dados criados são armazenados. Os 90% restantes acabam tendo uma existência fugaz. Desaparecem para dar espaço aos novos dados. Essa tendência deve continuar para os próximos anos, o IDC estima que o crescimento da capacidade de armazenamento terá um ritmo bem menor do que o crescimento da capacidade de geração de dados, sobretudo com a popularização da Internet das coisas. 
Os desafios para lidar com a disparidade entre o volume de informações produzidas pela humanidade e estratégias de armazenamento, recuperação e análise de todo esse conteúdo, tem sido um dos impulsionadores da inovação em métodos e técnicas desde a antiguidade.

Bigdata: o anúncio da era dos dados sem ciência

No ano de 2008, a revista norte-americana  Wired , publicou um artigo do seu então prestigiado editor chefe , Chris Anderson . O artigo tinha um título provocativo: ”The end of theory: the data deluge makes the scientific method obsolete” (”O fim da teoria: o dilúvio de dados que tornou o método científico obsoleto”) e alcançou um grande público, que difundiu o termo bigdata entre influenciadores, jornalistas, empresários, profissionais de marketing, coachs e consumidores do mundo digital.
Em seu artigo, Anderson costurou argumentos aparentemente lógicos que deram visibilidade para uma crença que já estava sendo difundida entre usuários e desenvolvedores da emergente ciência dos dados: a ciência está nos dados e não no pensamento. O artigo começa com uma paráfrase do estatístico George Box: ” Todos os modelos estão errados, mas alguns são úteis ”.
Logo, quanto mais dados, mais ciência! Teorias seriam argumentos usados apenas para cobrir de forma imperfeita a falta ou a insuficiência de dados. Segundo, Anderson, no século XXI, a abundância dos dados tornava desnecessárias hipóteses, modelos e explicações causais.
Muitos profissionais de ciência dos dados, marketing e computação, trabalhando em empresas, viam (e muitos ainda veem) os pré-requisitos da pesquisa científica, incluindo a estatística, como formalismo acadêmico desnecessário ao trabalho prático.
Por exemplo, um analista de dados, trabalhando em uma loja de departamento, para fornecer resultados para o pessoal de marketing sobre quais as características de um produto são mais pesquisadas entre grupos etários de usuários, não precisaria ”testar hipóteses estatísticas” ou recorrer a nenhum tipo de conceito ”teórico” de consumidor. Bastaria rodar todos os dados (supondo que a loja de departamento tivesse o equipamento adequado para atender a capacidade de processamento exigida) que um padrão válido sobre o comportamento dos consumidores se apresentaria como resultado.
A proposição de Anderson não era simplista, mas representava uma tendência que ajudou em disseminar a crença ingênua de que quanto mais dados, mais corretas estão as repostas. Os computadores com alta capacidade de processamento e armazenamento de dados poderiam encontrar padrões de correlação entre as informações. Se os dados forem suficientemente grandes, essas correlações seriam significativas, tornando desnecessários conceitos e testes estatísticos. Difundiu-se a ideia de que o bigdata tornava obsoleto o conhecimento científico (e acadêmico) acumulado até então. A nova ciência precisaria apenas da abundância de dados do mundo digitalizado e muita capacidade de processamento.
O volume de dados por si só não é uma garantia de que um estudo sobre qualquer fenômeno possa estar correto. Não é o bigdata que establece a cientificidade de um procedimento analítico.
Passado o deslumbre inicial com a avalanche de dados que disseminou o bigdata, proposições como a de Anderson passaram a ter sérios críticos entre os analistas e profissionais da área. O volume de dados não é suficiente para garantir uma explicação correta sobre qualquer fenômeno da realidade. 
Podemos tomar como exemplo novamente o caso de Thyco Brahe e a revolução que possibilitou que o heliocentrismo de Copérnico e Kepler pudessem suplantar séculos de pensamento centrado na Terra como centro do universo, chamado de modelo geocêntrico.
Thyco Brahe não concordava com a teoria de Copérnico. Era um estudioso da obra de Ptolomeu e defendia o geocentrismo. No século III, Ptolomeu expôs no seu Almagesto vários elementos de matemática e astronomia, entre os quais um modelo que explicava o movimento dos planetas a partir de uma série de círculos concêntricos. A obra foi uma das principais referências científicas desde o fim do Império Romano até o fim da idade. Foi lida e estudada tanto na Europa cristã, quanto no mundo islâmico (de onde vem o nome Almagesto , corruptela latina da tradução em árabe, cujo título original em grego significa ”A grande coleção”).
Desde que os povos começaram a olhar para o céu de forma mais sistemática, provavelmente para marcar as mudanças nas estações, muitas explicações foram tentadas para explicar o movimento dos planetas. Visto da terra, parece que todos os corpos celestes seguem uma direção, como um conjunto coordenado de movimentos.
Exceto pelos planetas (palavra que em grego significa um ”errante”), que percorrem trajetórias diferentes. Marte, por exemplo, parece reverter o seu movimento, voltando no céu em relação às demais estrelas, para em seguida seguir seu caminho adiante. Aristóteles, no século IV AC, propôs uma teoria para explicar os movimentos dos corpos celestes.
Para o pensador grego, todos os corpos possuíam um tipo de movimento natural. Na Terra, o movimento natural seria retilíneo para cima (leviandade) ou para baixo (gravidade). Qualquer movimento diferente só poderia ser causado por intervenção de uma força externa. No céu seria diferente. Os corpos celestes seriam feitos de uma matéria própria, chamada por ele de Éter, cujo movimento natural seria circular. A Terra seria o centro do universo e estaria em repouso, todo o resto estaria se movendo em torna da Terra.
É importante ressaltar que a  teoria do geocentrismo não é o mesmo que ” terraplanismo”. No século IV AC, os gregos já sabiam que a Terra era esférica e já até haviam calculado com certa precisão o seu diâmetro. Aristóteles sabia que a posição das constelações variava quando vistas de regiões diferentes. Mas, Aristóteles misturou suas impressões sobre a realidade com valores filosóficos e morais, como a ideia de que o universo é imutável e perfeito.
Sua explicação física do movimento dos corpos celestes demoram quase dois séculos para serem refutados, na medida em seus argumentos foram incorporados primeiro pelo islamismo e posteriormente pelo cristianismo, sustentando o postulado da imutabilidade e perfeição da criação divina. Os planetas desafiavam a ideia de perfeição do universo aristotélico, se pareciam com corpos que vagueavam pelo céu sem uma explicação lógica.
Coube ao astrônomo grego, Cláudio Ptolomeu, na cidade de Alexandria no Egito do século II DC, propor uma teoria sistêmica do movimento planetário a partir da concepção de órbitas excêntricas, o que, de certa forma, contrariava a ideia de perfeição do movimento circular dos corpos no éter, tal como formulada por Aristóteles. A teoria geocêntrica de Ptolomeu foi escrita em um grande tratado, que ficou conhecido no ocidente como Almagesto.
O modelo geocêntrico de Ptolomeu sistematizava grandes avanços nos conhecimentos em matemática e geometria. Conseguia explicar o chamado movimento retrógrado dos planetas e apresentava soluções lógicas para o movimento do sol ao redor da Terra e outros problemas de astronomia da época. No entanto, era um modelo equivocado sobre o movimento dos corpos celestes. Conforme a citação do estatístico George Box, esse seria um exemplo de modelo útil, porém errado.
Mais de mil anos depois do Almagesto ter sido escrito, grandes astrônomos, como Tycho Brahe, ainda utilizavam intensivamente o livro escrito por Ptolomeu como texto de referência e autoridade intelectual para explicar os movimentos dos corpos celestes. A teoria geocêntrica estava de acordo com a doutrina das Igrejas cristãs e mulçumanas, que colocavam o ser humano como centro da criação divina.
Em seu Observatório, Brahe criou vários instrumentos para medir com o máximo rigor possível a posição das estrelas e planetas, anotando com sua equipe, cuidadosamente todos os movimentos celestes observados. Um dos objetivos era fornecer dados suficientemente apurados para corrigir as imprecisões do Almagesto de Ptolomeu.
Enquanto Tycho Brahe trabalhava em seu Observatório na Dinamarca, o debate na Europa sobre heliocentrismo e geocentrismo percorria alguns círculos intelectuais da época. A proposição sobre o modelo que tinha o Sol como centro do movimento da Terra e dos planetas era tratada como conjectura filosófica, não como hipótese alternativa, dado que contrariava os postulados bíblicos, que deveriam ser a única fonte de autoridade em disputas argumentativas. Mas, desde meados do século XVI, o modelo heliocêntrico contava com uma fundamentação lógica e matemática, graças ao astrônomo e matemático polonês, Nicolau Copérnico, autor do livro ”As Revoluções dos Orbes Celestes”.
Copérnico não foi o primeiro a propor o modelo heliocêntrico. Antes até de Aristóteles, Pitágoras já postulava que a Terra se movia em torno de um ”fogo central”. Para a seita Pitagórica, o fogo era o elemento primordial do Universo, logo, nada mais natural do que tudo estar ao redor de uma grande fogueira espacial. No modelo de Pitágoras, o Sol era apenas mais um astro a rodear o ”fogo central”.
Aristarco, também grego, no século III AC, usando os conhecimentos de geometria da época, calculou o diâmetro da Terra e propôs, por suas projeções, que o Sol seria sete vezes maior do que a Terra. Com base nessa informação, Aristarco concluiu que seria mais lógico o objeto menor, no caso a Terra, girar ao redor do objeto maior, o Sol. A novidade de Copérnico não estava na proposição de que a Terra girasse ao redor do Sol, mas na construção de um modelo que conseguia responder as mesmas indagações que levaram ao modelo ptolomaico, como o movimento retrógrado dos planetas, ao mesmo tempo que apresentava solução para os problemas não respondidos ou criados pelo modelo do Almagesto.
Tycho Brahe concordava com a tese de Ptolomeu e discordava da ideia de Copérnico. O seu trabalho minucioso de coleta de dados, que poderia ser considerado um desfio de bigdata para aquele tempo, pretendia confirmar e dar mais precisão ao modelo geocêntrico. Um de seus auxiliares, o alemão Johannes Kepler, após a morte de Tycho, compilou os dados e utilizou-os para construir um modelo heliocêntrico mais apurado do que o Copérnico, prevendo as órbitas elípticas e não circulares dos planetas ao redor do Sol.
Ao contrário da citação de George Box, o modelo de Kepler foi útil e correto ao mesmo tempo, pois representava de fato o movimento planetário, que, agora no século XXI, pode ser confirmado com várias outras fontes de dados e observações espaciais. Tycho Brahe poderia ter coletando mais dados, caso talvez tivesse mais tempo e recursos, e isso, muito provavelmente, não o faria trocar sua concepção geocentrista pelo modelo heliocêntrico. Copérnico não dispunha dos dados de Tycho Brahe, quando formulou seu modelo de órbitas circulares dos planetas ao redor do Sol.

O oposto ao bigdata, a presunção de uma ciência sem dados!

Os dados são desnecessários?

Se Baher trabalhou tanto para construir uma coleção minuciosa de dados sobre o movimento dos planetas e ainda acreditava na teoria incorreta do geocentrismo, e Copérnico, antes dos dados de Tycho Baher, já havia criado o modelo heliocêntrico correto, então pode-se concluir que os dados são desnecessários para o avanço do conhecimento humano?
A resposta certamente é não, os dados não são dispensáveis.
O oposto da proposição de que os dados são suficientes para o entendimento dos fenômenos (e dispensam a ciência) está na visão ingênua de que a genialidade humana provém do pensamento que se isola da realidade.
O conhecimento requer pensamento, observação e fundamentação dos argumentos baseados em evidências. Não há ciência sem dados, assim como os dados, independente do volume, não são explicativos por si só, dependem de modelos (teóricos) que explique as relações causais, os mecanismos e os processos a partir do qual os fenômenos se originam.

As pessoas não são como os planetas!

As pessoas não são planetas e o movimento da sociedade não pode ser comparado ao movimento sincronizado dos corpos celestes no céu. Embora o método das ciências da natureza seja distinto em grande parte do método das ciências sociais, em essência, a construção de modelos teóricos fundamentados em evidências é também a chave explicativa dos processos de mudança social.
Diante de um fenômeno social, o pensamento formula conjecturas para responder problemas. Quando as conjecturas conseguem ser sistematizadas se constituem em modelos teóricos (hipotéticos). A busca das evidências (dados) constitui-se no caminho (método) para sustentar ou refutar o modelo teórico explicativo do fenômeno em estudo.
Os dados podem ter erros, muitos dos quais são corrigíveis. O erro incorrigível é a falta de dados.
Do ponto de vista metodológico, temos nossa capacidade de pensamento e de observação para formularmos conclusões plausíveis e verificáveis sobre os problemas que nos instigam a imaginação ou nos cobram providências práticas.
Se optarmos por fazer ciência, seja qual ramos do conhecimento for, estamos optando por buscar explicações fundamentadas em evidências. As evidências devem ser buscadas em fenômenos, isto é, manifestações concretas da realidade.
O entendimento de um fenômeno ocorre quando há uma explicação demonstrável para sua manifestação. A falta de dados é um problema para a demonstração de evidências. Mas, a abundância de dados também não é uma garantia.  A explicação demonstrável ocorre quando se consegue ter os dados necessários para tornar aparentes as interconexões entre os fatos ou eventos que tornam possível a manifestação do fenômeno social que é objeto do estudo.
A compreensão requer mais do que dados volumosos. A compreensão ocorre quando, tendo havido o entendimento de um fenômeno, é possível conhecer as suas implicações e para tal é necessário um modelo, no mínimo, aproximadamente correto. A explicação que se sustenta na autoridade de argumentos ou em fenômenos não demonstráveis, no melhor dos casos, pode ser considerado como uma hipótese a ser investigada. Se não for tomada como hipótese será um dogma. E um dogma é uma postura anticientífica, que se nutre do negacionismo da realidade, independente do bigdata disponível, como o mundo pôde testemunhar com a disputa entre o geocentrismo e o heliocentrismo, e, recentemente, com o negacionismo que aflorou com a pandemia de Covid -19.
Pode-se destacar que:

Sugestões de leitura

OSF | as_ciencias_sociais_na_era_do_zettabyte.pdf  OSF | reflexoes_sobre_percursos_metodologicos_em_ciência_social_computacional.pdf
Esse documento também está disponível em formato de apresentação Sway.