Tabela de conteúdos

Open Forestry
Ferramentas
Tendências
Tidyverse

Processamento Reproduzível e Aberto de Dados nas Ciências Florestais

A Disciplina LCF5900 - Processamento Reproduzível e Aberto de Dados Científicos (2022) tem por objetivo propor e apresentar um conjunto de procedimentos, ferramentas, que permitem aos pesquisadores tratar os dados de forma aberta e reproduzível.

Para a turma de 2022 foi escolhido o tema:

Environmental Science (Open Forestry, Tools and Applications).

Onde detalhamos e abordamos aspectos da ciência de dados abertos para as ciências ambientais, com um maior foco para a Engenharia Florestal.

Open Forestry

Esta página é baseada no Comentário Científico: Making forest data fair and open. Revista Nature Ecology & Evolution

Conceitos importantes:

Open Data - Conforme o Open data Handbook, Dados abertos são dados de pesquisas que estão disponíveis livremente na internet para download, mudanças e distribuição sem restrições legais ou financeiras.

FAIR - Findability(Habilidade de Encontrar), Accessibility(Acessibilidade), Interoperability(Interoperabilidade), and Reuse of digital assets (Possibilidade de Reusar).

General view of a tract of the Amazon jungle which burns as it is cleared by loggers and farmers near Apui, Amazonas State, Brazil August 11, 2020. Picture taken with a drone. REUTERS/Ueslei Marcelino

“Em uma sociedade com altas necessidades de dados sobre florestas tropicais, como podemos romper a barreira social entre os produtores de dados florestais e os usuários de dados florestais?” Este é o primeiro sentimento deixado pelos autores do comentário científico. Mas você deve se perguntar: Qual o porquê deste interesse por estes dados neste recorte do planeta? Primeiramente, as regiões que correspondem as florestas tropicais são os ecossistemas mais ricos e produtivos do planeta terra, assinalam Lima e colaboradores. Além disso, a quantificação (valores, mesmo) de dinâmicas de carbono, biodiversidade e como estes estão mudando são ultra valiosos e muitos stakeholders estão interessados nestes dados. Os interessados vão desde cientistas, governos, ongs, à interesses comerciais como extração madeireira ou venda de créditos de carbono. Os autores destacam que um grupo muito ignorado, quando se fala dos interesses com as florestas tropicais são as próprias comunidades locais, estes os quais a informação se faz mais necessária e os garante direitos e ajuda na conservação e restauração de suas florestas.

De forma panorâmica, é preciso que os dados se apresentem de forma FAIR(ver descrição no superior desta página) e OPEN. Assim, será possível aumentar a transparência, inovação e reprodutibilidade. E não se enganem! Existem sim, bancos de dados, OPEN e FAIR. Como i.e. GBIF, GenBank e Global Forest Watch. Mas, nestes, não existem a perspectiva daqueles que fazem as mensurações, na prática. O argumento dos autores do texto é: Políticas de dados florestais devem usar de forma linguisticamente correta o termo FAIR - justo, equitativo, leal.

“Em um mundo onde originar (mensuração, monitoramento...) dados florestais é considerado como um investimento de longo prazo, transformar estes dados em abertos faz todo sentido (já que todos podem contribuir no seu investimento)”.

"Mas quando a produção destes dados depende na insegurança de financiamentos incertos e condições precárias de empregabilidade, tornar estes dados aberto é, digamos, problemático."

Sendo assim, compreende-se, somente um grupo privilegiado do globo está capaz de explorar o potencial de dados florestais (de forma aberta). E sobre as comunidades que possuem o saber de suas florestas locais, estas estão em constante risco, já que saber informações como o valor de uma determinada madeira de uma determinada espécie, pode ameaçar toda sua comunidade.

Desafios

Os riscos, medos, incertezas são muitos quando falamos em dados florestais. Principalmente por que gerar dados acompanhados ao longo de muitos anos exigem grandes esforços. Falando em Floresta Amazônica, esses esforços aumentam exponencialmente. É preciso combinar fatores múltiplos como instituição, legislação e interesses. Para 1 hectare mensurado na amazônia é preciso coletar e ter capacidade de identificar 10 vezes mais espécies que os 24 milhões de hectares do Reino Unido.

Outro desafio importante é que os trabalhadores florestais (pesquisadores, técnicos, estudantes, assistentes de campo e comunidades locais) não possuem atrativos básicos que garantam seu trabalho. Desde segurança no campo (ameaças, sequestros, picada de cobra, enchentes, incêndios, violência baseada em gênero e aos membros da comunidade LGBTQIA+...) até recursos básicos para mensuração e manutenção das suas áreas de interesse e estudo.

Há alguns exemplos de sucesso como o do vídeo a seguir:

Como superar estes desafios?

Como os desafios são enormes, a primeira pergunta é: será possível mudar essa realidade para beneficiar igualitariamente os geradores dados e usuários? Os autores do comentário científico acreditam que o futuro dos dados de florestas tropicais deve ser aberto, como no caso de dados biológicos (sequenciamento de DNA). Mas para esse futuro, é necessário um acordo internacional entre os que geram estes dados, usuários e financiadores.

Os autores apresentam 8 recomendações-chave que está baseada nas necessidades daqueles que geram os dados e garante a contribuição adequada dos usuários e financiadores.

Pensar em monitoramento de florestas a longo prazo é uma tarefa árdua e deve haver valorização de pessoas, estas recomendações, portanto, buscam atender, em primeiro lugar as pessoas, ao invés dos dados. Consequentemente, é necessário encarar com seriedade os custos reais da geração de dados florestais, com melhores planos de carreira para aqueles que estão no trabalho de campo. Para este plano financeiro está incluso:

Trabalho de campo, trabalho de laboratório (incluindo apoio de centros de herbário);
Treinamento, Segurança do trabalho e condições asseguradas para o trabalho;
Integração de instituições responsáveis pela entrega dos dados;
Cobrir os custos de curadoria e infraestrutura de database garantindo padronização dos dados.

Assim, de forma conjunta, é possível garantir que os financiadores estão apoiando caminhos para o lançamento de dados abertos e de open science.

Com relação àqueles que geram os dados, é preciso:

Adotar definições gerais sobre autorias e incluir aqueles envolvidos na coleção dos dados e manejo; e
Garantir que os resultados sejam comunicados NA LINGUAGEM DAQUELES QUE OS GERARAM. (Claro, dividimos o mesmo mundo, mas capacidade de investimento em pesquisa é altamente desigual);
Acordos internacionais e financiamentos que apoiem a geração de dados, infraestrutura e carreiras são importantes para empoderar instituições tropicais e subtropicais;
Desenvolver, relações estreitas, longevas e igualitárias, que estabeleçam metas para financiadores, geradores e usuários destes dados.

Mudanças sistêmicas de sucesso demandam que se construam parcerias onde há divisões. Nossas necessidades compartilhadas de estabilizar o clima e proteger a biodiversidade devem incentivar acordos globais e leis nacionais, para que haja compreensão dos princípios de direitos e deveres, por todos.

Em resumo, Para dados de florestas tropicais se tornarem OPEN, eles, primeiramente devem ser FAIR!

Esta página é baseada no artigo dos autores: Renato A. F. de Lima, Oliver L. Phillips, Alvaro Duque, J. Sebastian Tello, Stuart J. Davies, Alexandre Adalardo de Oliveira, Sandra Muller, Euridice N. Honorio Coronado, Emilio Vilanova, Aida Cuni-Sanchez, Timothy R. Baker, Casey M. Ryan, Agustina Malizia, Simon L. Lewis, Hans ter Steege, Joice Ferreira, Beatriz Schwantes Marimon, Hong Truong Luu, Gerard Imani, Luzmila Arroyo, Cecilia Blundo, David Kenfack, Moses N. Sainge, Bonaventure Sonké & Rodolfo Vásquez.

LIMA, R.A.F et al. Making forest data fair and open. Nature Ecology & Evolution, p. 1-3, 2022.

Redação: Jorge Monteiro

Ferramentas

O movimento de ciência aberta defende artigos de acesso livre, dados de pesquisa compartilhados, metodologia de pesquisa completa, repositórios legíveis por máquina e muitas outras formas de promover resultados de pesquisa amplamente divulgados. A ciência aberta pode possibilitar o aprofundamento de uma determinada pesquisa, verificar sua reprodutibilidade, permitir a realização de estudos metacientíficos em grupos de pesquisa e permitir a obtenção de novos insights combinando muitos conjuntos de dados usando algoritmos de aprendizado de máquina.

Tais habilidades certamente facilitarão a criação de conhecimento mais eficiente e podem até abrir novos rumos de pesquisa. A ciência aberta permite diversos usos de artigos e ferramentas de pesquisas integradas para a elaboração de projetos públicos oriundos do open science, além disso, seguir os princípios para que este trabalho seja FAIR.

Aqui estão alguns repositórios de dados sem fins lucrativos que cumprem os princípios FAIR:

Harvard Dataverse
Hospedado pela Harvard University, este repositório de dados oferece armazenamento gratuito de dados de pesquisa. Como todos os serviços desta lista, ele atribuirá um Identificador de Objeto Digital aos seus dados para garantir que sejam creditados a você.

Github

De propriedade da Microsoft, o GitHub tornou-se o repositório de dados padrão para codificadores. 500 MB de espaço público privado e ilimitado são oferecidos gratuitamente.

OpenStreetMap
Plataforma aberta para obtenção de informações geográficas de malhas urbanas espalhadas pelo mundo, com atribuições específicas sobre o ambiente em questão.

Ebird
Plataforma de ornitólogos que realizam ciência cidadã para a obtenção de diversidade de espécies de aves em todo o perímetro florestal e urbano do mundo.

Google Scholar
O mecanismo de busca acadêmico também oferece estatísticas de desempenho dos usuários que criaram um perfil.

Mendeley
Mostra todos os tipos de estatísticas, incluindo contagem de citações, índice h, artigos baixados, etc. Você precisará registrar um perfil para vê-lo. Propriedade da Elsevier.

Publons
Originalmente desenvolvido para rastrear revisões por pares, mas agora oferece uma variedade de estatísticas de desempenho do pesquisador. Propriedade da Clarivate.

ORCiD
ORCID significa Open Researcher and Contributor Identifier. A organização sem fins lucrativos por trás do ORCID decidiu vincular inequivocamente um pesquisador à sua pesquisa. Além de uma lista de publicações, a plataforma centraliza todas as suas realizações acadêmicas, como registros de afiliação e educação, bolsas recebidas, prêmios e subsídios, bem como contribuições de revisão por pares. O ORCID obtém os dados de (entre outros) Crossref que cria links persistentes para publicações na forma de DOIs. O ORCID também se integra a outros bancos de dados e serviços, para que você possa, por exemplo, sincronizá-lo com seu perfil do LinkedIn.

Além disso, existem linguagens de programação gratuitas que permitem a manutenção e análise dos dados obtidos através das plataformas open science para a elaboração de produtos que ofereçam o mesmo serviço integrado e aberto para a população, como por exemplo o Python e o R.

O vídeo a seguir comenta sobre algumas ferramentas para que a pesquisa seja aberta e reproduzível:

A ciência aberta ainda enfrenta muitos problemas, incluindo classificação, rotulagem, curadoria, armazenamento, compartilhamento e direitos autorais. Claramente, algo mais do que as boas intenções de um único pesquisador será necessário para superar esses problemas. Portanto, o compartilhamento de dados aumenta a credibilidade do trabalho e pesquisador e servirá ao bem maior do avanço da ciência em geral.

Tendências

Entendendo a necessidade democrática da implementação de práticas de Governos Aberto, o Brasil lançou em 2018 o 4º Plano de Ação Nacional em Governo Aberto, constituído de 11 compromissos. Devido à ausência de uma cultura da ciência aberta de forma institucionalizada, o 3° compromisso pretende avançar nos processos relacionados à disponibilização de dados abertos de pesquisa científica por meio do aprimoramento de instrumentos de governança. Assim, esse compromisso foi estruturado em nove marcos de execução.

Implantação de uma rede interinstitucional pela Ciência Aberta
Realização de diagnóstico nacional e internacional da Ciência Aberta
Definição de diretrizes e princípios para políticas institucionais de apoio à Ciência Aberta
Promoção de ações de sensibilização, participação e capacitação em Ciência Aberta
Articulação com agências de fomento para a implantação de ações de apoio à Ciência Aberta
Articulação com editores científicos para a implantação de ações em apoio à Ciência Aberta
Implantação de infraestrutura federada piloto de repositórios de dados de pesquisa
Proposição de padrões de interoperabilidade para repositórios de dados de pesquisa
Proposição de conjunto de indicadores para aferição da maturidade em Ciência Aberta

Neste contexto, apresenta-se como tendência no país a adoção da ciência aberta como modus operandi das principais universidades e agências de fomento à pesquisa. Baseada na Declaração de São Francisco sobre Avaliação da Pesquisa, declaração que tem gerado diversas discussões no mundo sobre a forma de fazer, divulgar e ,principalmente, avaliar e publicar ciência, a USP emitiu em 2021 a Declaração da USP de Apoio à Ciência Aberta, na qual estabelece diretrizes a serem adotadas, mas também convidada a comunidade a pensar e discutir sobre. Como exemplo de agência de fomento, a FAPESP mostra-se como a principal agência no contexto de promoção da Ciência Aberta. Além da disponibilização de uma página dedicada a Ciência Aberta em seu site, todos pesquisadores que hoje desejam receber auxílio/bolsa da agência devem elaborar um Plano de Gestão de dados, o qual deve contem explicitamente: Descrição dos dados e metadados produzidos pelo projeto; política de preservação e compartilhamento; Descrição de mecanismos, formatos e padrões para armazenar tais itens de forma a torná-los acessíveis por terceiros.

Por fim, a nível internacional, o programa europeu de financiamento à pesquisa Horizon Europe é baseado em 3 pilares: Open Science, Desafios Globais e Open Innovation. Assim, muitos países da união europeia já iniciaram o lançamento de programas em ciência aberta. Originado de um financiamento da Horizon, a iniciativa EOSC (European Open Science Cloud) surgiu para se estabelecer como uma rede internacional de repositórios de dados abertos, mas que também tem movidos esforços na criação de softwares de gerenciamentos desses dados e no treinamento educacional de cientistas, profissionais e leigos sobre ciência aberta. Outra iniciativa que segue essa linha educacional é o Portal FOSTER que consiste em um portal de educação online gratuito de treinamentos e cursos sobre ciência aberta e como implementa-la em seus fluxos de trabalhos e laboratórios. Assim, espera-se que os conceitos fundamentais que moldam a ciência aberta seja cada vez mais difundidos entre os pesquisadores, universidades e agências financiadoras, de modo que a ciência seja cada vez mais acessível à todos, tornando-a mais colaborativa e reproduzível.

Podcast USP Analisa - Open Science

Open Science ou Ciência Aberta é um movimento mundial que busca tornar dados resultantes de pesquisas científicas mais acessíveis dentro e fora da comunidade acadêmica.

Mas que impactos isso pode trazer a produção científica?
Como a Universidade está se preparando para essa tendência?

Tidyverse

Por: Evandro Magalhães, Guilherme Landim e Jorge Monteiro

citação “Conjuntos de dados Tidy são todos iguais, mas todo conjunto de dados bagunçados são únicamente bagunçados.” –– Hadley Wickham

O que é a filosofia Tidy?

Os princípios para a elaboração de dados limpos através de uma interface uniforme permite a dominação de um pacote que pode ser interligado à lógica de outro. O tidyverse parte de uma base “crua” e a transformam até obter uma base de dados analítica, que, a menos de transformações simples, está preparada para gerar tabelas e gráficos e alimentar modelos. O Tidyverse é um conjunto de pacotes para ciência de dados que possuem gramática, estrutura de dados e principalmente, uma filosofia em comum. A filosofia é de trabalhar sempre com dados tidy (arrumados) e ter todas as ferramentas para transformar os dados que tivermos em tidy.

O tidyverse segue os seguintes princípios para uma API organizada, segundo o Tidy Manifesto:

Reutilizar estruturas de dados existentes

Quando possível, é melhor utilizar estruturas de dados comuns do que criar uma estrutura específica para o seu pacote. Geralmente, é melhor reutilizar uma estrutura existente mesmo que ela não se encaixe perfeitamente.

Organizar funções simples usando o pipe

O pipe, %>%, é uma ferramenta de composição comum que funciona em todos os pacotes. Faça com que suas funções sejam o mais simples possíveis. Com o pipe é possível programar de forma mais compacta, legível e correta. Uma função deve poder ser descrita com apenas uma sentença. A sua função deve fazer uma transformação no estilo copy-on-modify ou ter um efeito colateral. Nunca os dois. O nome das funções devem ser verbos. Exceto quando as funções do pacote usam sempre o mesmo verbo. Ex: adicionar ou modificar.

Programação Funcional

O tidyverse trata de um conjunto de pacotes lógicos que combina a manipulação de vetores para a visualização de dados em mapas para gerar uma comunicação sobre o fenômeno que o ocorre com a combinação dos fatores que aqueles dados possuem. Esta manipulação combinada é dado pela exploração algébrica dos conjuntos numéricos para a formação de equações que possam entender as variáveis ajustadas de acordo com a lista de dados que foi obtida através da dinâmica do processamento do código. A visualização combinada destes dados é ralizado por visulizações geométricas em diferentes escalas de acordo com a equação lógica atribuida, informando a posição dos vetores distribuidos de acordo com a matemática atribuída para o entendimento do fenômeno a ser explorado. Cada pacote do tidyverse lida com um diferente tipo de lógica.

Projetado para ser usado por seres humanos

Desenvolva o seu pacote para ser usado por humanos. Foque em ter uma API clara para que você escreva o código de maneira intuitiva e rápida. Eficiência dos algoritmos é uma preocupação secundária, pois gastamos mais tempo escrevendo o código do que executando.

Em resumo, toda variável está em uma coluna, e toda coluna é uma variável!

Quais são as regras para ser Tidy?

O padrão a ser seguido para a criação de dados e tabelas Tidy são em essência simples:

Cada variável é uma coluna
Cada observação é uma linha
Cada tipo de unidade observacional é uma tabela

Neste contexto, dados que não obedeçam esse conjunto de regras são considerados bagunçados (messy data).

De acordo com Hadley Wickham, desenvolvedor de diversos pacotes encontrados dentro do tidyverse (ggplot2, plyr, dplyr, etc…), os dados que fogem do padrão tidy podem ser categorizados em 5 problemas de organização:

Os cabeçalhos são valores, não o nome das variáveis;
Multiplas variáveis estão armazenadas na mesma coluna;
Variáveis armazenadas tanto em linhas, como em colunas;
Diferentes tipos de unidades observacionais estão armazenadas na mesma tabela;
Uma única unidade observacional está armazenada em diferentes tabelas.

O que é tidyverse?

O Tidyverse é uma coletânea de pacotes que podem facilmente ser instaladas pelo aglomerador de pacotes chamado ''tidyverse''. O que facilita, de forma conveniente o download e instalação dos pacotes com um simples comando no software R.

Pacotes do Tidyverse

No dia a dia cheio de análises de uma cientista de dados, provavelmente ela utilizará um dos pacotes do universo Tidy. Estes são:

ggplot2 O ggplot2 é um sistema para criação gráfica. Muito simples e muito usado! Basta prover os dados, dizer como você deseja que suas variáveis estejam localizadas esteticamente, quais princípios gráficos você deseja utilizar e ele resolverá para você.

dplyr O dplyr é um conjunto gramático de transformação de dados que ajuda a resolver a maioria dos problemas que os cientistas tem com os seus dados. Por exemplo: sumarizar, filtrar dados, agrupar, desagrupar, inserir linhas, colunas, renomear e tantos outros.

tidyr O tidyr proporciona um conjunto de funções que auxiliam a cientista de dados a transformar seu dataframe em tidy. Por exemplo: remodelar seuss dados (pivotar dados e reorganizar valores em novo layout), Dividir Células, Trabalhar com dados não disponíveis (os famosos NA's)…

readr O readr é um pacote que, de forma simples, lê dados tabulados(como csv, tsv, fwf). Este pacote é pensado para analisar diferentes dados encontrados na natureza e detectar quando estes dados são alterados de forma não esperada.

purrr O purrr ou, como a nossa tradução livre, ronronar (dormir igual um gatinho) é um pacote que melhora a programação funcional do R fornecendo uma completa caixa de ferramentas para trabalhar com funções e vetores. Este pacote permite que você substitua varias funções por loops com códigos fáceis de escrever. Ou seja, grandes feitos com poucos passos.

tibble Tabelas tibble são formas de dataframe. Neste formato, você consegue enfrentar problemas que só apareceriam no futuro, o que torna o seu código mais limpo e eficiente. </p></html>

stringr A manipulação de strings com o pacote stringr é dada com base na promoção de um conjunto de ferramentas para trabalhar com uma string (cadeida de caracteres). Por exemplo: Detectar Matches, dividir strings, administrar tamanhos de células, juntar, separar…

forcats O forcats é um utilitário de ferramentas que resolvem os problemas comuns com fatores. Por exemplo: criar um fator com um fator, inspecionar fatores, combinar fatores, mudar a ordem de níveis(desde, colocar gráficos em ordem crescente ou decrescente à coloração gráfica)…