04-conjunto-de-dados.Rmd

# Conjunto de dados

A maximização da disseminação e uso de um conjunto de dados, o apropriado reconhecimento das pessoas e organizações autoras e/ou responsáveis, bem como a identificação de alterações e ajustes feitos após a publicação da sua primeira versão, dependem da provisão de dados mínimos sobre aquele conjunto de dados. No **febr**, esses dados sobre o conjunto de dados são inseridos na tabela denominada *dataset*, palavra que na língua inglesa significa 'conjunto de dados'.

Por conter dados essenciais sobre o conjunto de dados, a tabela *dataset* é sempre a primeira a ser revisada e processada. Quaisquer dados faltantes são solicitados aos responsáveis pelo conjunto de dados. Da mesma forma, sempre que dados incoerentes são identificados, os responsáveis pelo conjunto de dados são consultados iterativamente até que quaisquer dúvidas sejam completamente sanadas. O devido preenchimento da tabela *dataset* é essencial para o posterior processamento dos dados e metadados do conjunto de dados.

A tabela *dataset* possui cerca de vinte campos a serem preenchidos, os quais são estruturados em uma sequência de linhas (Tabela \@ref(tab:dataset)). Especificamente, os dados sobre o conjunto de dados são inseridos na segunda coluna, imediatamente ao lado da sua respectiva identificação e definição contidas na primeira coluna. A primeira linha é dedicada à identificação propriamente dita do conjunto de dados no **febr**, a segunda ao título do conjunto de dados, e assim por diante, até as últimas linhas, dedicadas aos termos usados para a descrição de características chave e indexação do conjunto de dados. Cada um dos campos da tabela *dataset* são descritos em detalhe nas próximas seções.

```{r, echo=FALSE}
dataset <- 
  rbind(
    c("dataset_id", "<???>"),
    c("dataset_titulo", "<???>"),
    c("dataset_descricao", "<???>"),
    c("... ", "<???>"),
    c("palavras_chave", "<???>"),
    c("categoria_vcge", "<???>")
  )
colnames(dataset) <- c("**campo**", "**valor**")
pander(dataset, caption = "(\\#tab:dataset) Representação da estrutura da tabela *dataset*.")
```

## Identificação {#titulo}

Um conjunto de dados no **febr** é identificado por dois campos principais (Tabela \@ref(tab:titulo)). O primeiro deles, `dataset_id`, é o código identificador único do conjunto de dados, o que significa que não há nenhum `dataset_id` repetido no **febr**.

```{r, echo=FALSE}
titulo <- 
  rbind(
    c("dataset_id", "código de identificação do conjunto de dados"),
    c("dataset_titulo", "título do conjunto de dados")
  )
colnames(titulo) <- c("**campo**", "**valor**")
pander(titulo, caption = "(\\#tab:titulo) Campos utilizados para a identificação do conjunto de dados.")
```

Em geral, o código de identificação de um novo conjunto de dados inserido no **febr** é definido pela sua
posição em relação aos demais conjuntos de dados (**c**on**t**ri**b**uições, `ctb`) presentes no **febr**. 
Por exemplo, o código de identificação do primeiro conjunto de dados inserido no **febr** é 
`dataset_id = ctb0001`, enquanto que do trigésimo terceiro conjunto de dados é `dataset_id = ctb0033`.

No caso dos conjuntos de dados obtidos diretamente do Sistema de Informação de Solos Brasileiros ([SISB][sisb]), o código de identificação utilizado no **febr** é o mesmo usado naquele sistema, independente da sua ordem de entrada no **febr**. Por exemplo, `dataset_id = ctb0770`, onde `770` é o código de identificação usado no SISB. Essa estratégia possibilita que, no futuro, e em havendo interesse por parte dos mantenedores do SISB, seja estabelecida comunicação direta do SISB com o **febr**. Assim, seria possível atualizar os dados no SISB à medida que ajustes e correções nos dados forem sendo feitos no **febr**.

[sisb]: https://www.sisolos.cnptia.embrapa.br/

O segundo identificador de um conjunto de dados é o seu título -- `dataset_titulo` --, geralmente relacionado
ao título do projeto, tese, dissertação, etc que o gerou. Em geral, é mais interessante usar um título 
específico para o conjunto de dados, o que identifica melhor o seu conteúdo, ao invés do título do trabalho ou
projeto que o gerou. Isso é importante para aumentar as chances de o conjunto de dados ser identificado em
ferramentas de busca e assim potencializar o seu reúso.

Quanto à formatação do título, é usada a mesma língua da fonte e caracteres em caixa baixa, com exceção da 
primeira letra do título e dos nomes próprios. Por exemplo, *Conjunto de dados da tese 'Matéria orgânica e
características físicas, químicas, mineralógicas e espectrais de Latossolos de diferentes ambientes'*.

## Descrição {#descricao}

A descrição do conjunto de dados, contendo dados básicos para maximizar o seu reúso futuro, sem que seja
necessário entrar em contato com os autores ou responsáveis, é incluída no campo `dataset_descricao`. A 
descrição do conjunto de dados aborda aspectos como:

1. Os motivos para a realização do estudo que levou à geração dos dados,
2. Um resumo dos dados incluídos no conjunto de dados e dos métodos analíticos usados, e
3. Uma descrição do delineamento amostral e a forma de coleta das amostras.

A descrição do delineamento amostral, ou seja, a estratégia utilizada para seleção dos locais de observação e
amostragem do solo, fornece os elementos necessários para determinar se -- e como -- os diferentes conjuntos 
de dados podem -- ou devem -- ser utilizados em uma determinada aplicação.

Quando for o caso, a descrição do conjunto de dados também inclui:

1. Os motivos para a presença de camadas/horizontes com dados faltantes para uma ou mais variáveis do solo, e
2. Uma descrição das alterações/modificações realizadas quando da publicação de uma nova versão.

Uma descrição exemplar de um conjunto de dados é a que segue:

> "Conjunto de dados produzido como parte da Dissertação submetida como requisito parcial para obtenção do grau
de Mestre no Curso de Pós-Graduação em Agronomia da Universidade Federal Rural do Rio de Janeiro. Inclui dados
do conteúdo de ferro total determinado via extração com solução de ácido sulfúrico para 20 perfis do solo
observados no município de Pinheiral, Rio de Janeiro. A seleção dos locais de observação foi feita com base no
conhecimento pedogenético da área de estudo, a partir de informações prévias sobre o meio físico e solo, tendo
sido selecionados pontos representativos que contemplassem a variação dos fatores de formação do solo. Em cada
local foram abertas trincheiras para descrição dos perfis e coleta de amostras dos horizontes para 
caracterização do solo segundo procedimentos descritos no Manual de Descrição e Coleta de Solo no Campo 
(Santos et al., 2013). Devido à existência de limitações orçamentárias, apenas amostras de horizontes
selecionados foram submetidas à determinação do conteúdo de ferro total. Em alguns casos, apenas os horizontes
B diagnósticos foram analisados, em outros o primeiro horizonte A e um ou mais horizontes subsuperficiais."

## Versionamento {#versao}

O controle dos passos do processamento de um conjunto de dados é realizado usando dois itens: `dataset_versao`
e `publicacao_data` (Tabela \@ref(tab:versao)). A versão do conjunto de dados é um dado necessário para
identificar os casos em que o conjunto de dados foi modificado por uma razão técnica e/ou científica. Por
exemplo, um conjunto de dados contendo inúmeras observações do solo cuja localização não foi georreferenciada 
(`dataset_versao = 1.0`). Uma vez no **febr**, esse conjunto de dados é modificado consideravelmente de maneira
que todas as observações do solo possuam coordenadas espaciais aproximadas, com precisão de cerca de 1000 m
(`dataset_versao = 2.0`). Em seguida, modificações menores são feitas, pois verifica-se que, para algumas
observações com maior volume de informações disponível, as coordenadas espaciais mais prováveis podem ser
inferidas com precisão de cerca de 100 m (`dataset_versao = 2.1`).

Sempre que uma nova versão de um conjunto de dados é preparada, uma descrição sumária das modificações é 
incluída na descrição do conjunto de dados em `dataset_descricao`. Os autores das modificações são então 
identificados conforme descrito abaixo na Seção \@ref(contribuidor).

```{r, echo=FALSE}
versao <- 
  rbind(
    c("dataset_versao", "versão atual do conjunto de dados"),
    c("publicacao_data", "data de publicação da versão atual do conjunto de dados")
  )
colnames(versao) <- c("**campo**", "**valor**")
pander(versao, caption = "(\\#tab:versao) Campos usados para o versionamento do conjunto de dados.")
```

A data de publicação do conjunto de dados, `publicacao_data`, não é necessariamente a mesma data de publicação
do trabalho que o gerou ou o utilizou pela primeira vez, mas sim a data em que o conjunto de dados foi tornado
efetivamente público e disponível para acesso. Quando modificações são feitas no conjunto de dados durante ou
após a sua inserção no **febr**, resultando assim em uma nova versão -- conforme descrito acima --, então a
data de publicação é a data em que essa nova versão do conjunto de dados foi disponibilizada no **febr**.

A data de publicação é apresentada na sequência dia, mês e ano, usando formato numérico `dd-mm-aaaa` ou 
`dd/mm/aaaa`, ou seja, dois dígitos para o dia e mês, e quatro dígitos para o ano. Por exemplo, `13-06-2001` 
identifica o dia 13 do mês de junho do ano de 2001. Sempre que possível são inseridos os dados de ambos dia, 
mês e ano. Contudo, dentre os três, o mais importante é aquele relativo ao ano. Quando algum dos dados não é 
conhecido, usa-se o símbolo `xx` em substituição, por exemplo, `xx-xx-2001`. Caso a data de publicação da 
versão atual conjunto de dados seja desconhecida, usa-se a data de publicação do trabalho que o
gerou ou utilizou pela primeira vez.

## Licença de uso {#licenca}

A licença de uso do conjunto de dados -- especificada usando o campo `dataset_licenca` -- define como o conjunto de dados pode ser usado por outras pessoas a partir do momento da sua publicação no **febr**. O **febr** aceita apenas conjuntos de dados com licenças de uso não-restritivas, ou seja, que permitem a redistribuição, modificação, adaptação e criação a partir do conjunto de dado submetido, e que não obrigam o licenciamento dos trabalhos derivados sob os mesmos termos. Contudo, os autores ou responsáveis pelo conjunto de dados tem reservado o direito de decidir se os produtos derivados podem ou não ter fins comerciais, desde que previsto pelo órgão financiador. As licenças [Creative Commons][cc] estão entre as mais apropriadas para os conjuntos de dados inseridos no **febr**, segundo as quais todos os novos trabalhos derivados de um conjunto de dados devem atribuir o devido crédito aos autores do conjunto de dados original.

[cc]: https://br.creativecommons.org/licencas/

A legislação brasileira ainda não especifica qual deve ser a licença de uso dos conjuntos de dados gerados em projetos conduzidos via financiamento público. Contudo, segundo a Infraestrutura Nacional de Dados Abertos ([INDA][inda]), existe consenso entre os diferentes órgãos da administração pública de que uma licença de uso apropriada para esse tipo de conjuntos de dados é a licença Creative Commons [CC-BY 4.0][ccby]. A licença CC-BY 4.0 permite que um conjunto de dados seja distribuído, remixado, adaptado e usado para criar outros produtos, mesmo que para fins comerciais, desde que seja atribuído o devido crédito aos autores do conjunto de dados original. Assim, trata-se de uma das licenças mais flexíveis dentre as licenças Creative Commons disponíveis, permitindo a maximização da disseminação e uso dos conjuntos de dados. Assim sendo, a licença CC-BY 4.0 é a licença adotada como padrão no **febr**. Maiores informações sobre as licenças de uso sugeridas para conjuntos de dados públicos podem ser encontradas no [fórum de discussão][indaforum] mantido pela INDA.

[inda]: http://wiki.dados.gov.br/
[ccby]: https://creativecommons.org/licenses/by/4.0/
[indaforum]: https://groups.google.com/forum/#!forum/inda-br

Para os conjuntos de dados gerados em projetos conduzidos via financiamento privado, onde as partes envolvidas têm interesse em compartilhar os dados desde que não para fins comerciais, pode-se usar a licença Creative Commons [CC-BY-NC 4.0][ccbync]. A licença CC-BY-NC 4.0 possui praticamente os mesmos termos da licença CC-BY 4.0, exceto pelo fato de que a distribuição, remixação, adaptação e derivação de outros produtos não podem ser usados para fins comerciais.

[ccbync]: https://creativecommons.org/licenses/by-nc/4.0/

As pessoas interessadas em utilizar os conjuntos de dados disponíveis no **febr** devem prestar atenção, não
só à licença de uso especificada no campo `dataset_licenca`, como também às determinações da política de uso de
dados da organização autora ou responsável pelo conjunto de dados. Um exemplo disso são os conjuntos de dados
originalmente descarregados do SISB, mantido pela Embrapa, para alimentar o **febr**. Segundo a Embrapa, o
emprego dos dados disponíveis em seu SISB para "*finalidades profissionais e/ou comerciais deve ser precedido
de estabelecimento de licença de uso específica por parte da Embrapa*", política essa que se estende à versão
do conjunto de dados disponível no **febr**.

## Organização {#organizacao}

A organização ou instituição responsável pela geração do conjunto de dados é identificada usando uma série de
itens codificados usando o padrão `organizacao_<...>`, onde `<...>` representa um descritor da organização 
responsável (Tabela \@ref(tab:organizacao)). Fundamentalmente, esses campos armazenam dados básicos sobre os
endereços físico e eletrônico da organização.

```{r, echo=FALSE}
tabela <- 
  rbind(
    c("organizacao_nome", "nome da organização responsável"),
    c("organizacao_url", "endereço da organização responsável na Internet"),
    c("organizacao_pais_id", "país da organização responsável"),
    c("organizacao_municipio_id", "cidade da organização responsável"),
    c("organizacao_codigo_postal", "código postal da organização responsável"),
    c("organizacao_rua_nome", "rua da organização responsável"),
    c("organizacao_rua_numero", "número da organização responsável em sua rua")
  )
colnames(tabela) <- c("**campo**", "**valor**")
cap <- "(\\#tab:organizacao) Campos para a identificação da organização responsável pelo conjunto de dados."
pander(tabela, caption = cap)
```

Quando o conjunto de dados é provido por organização outra que não aquela responsável pela sua geração, 
pode-se identificar a organização que atualmente detém responsabilidade técnica sobre o conjunto de dados, ou
seja, a organização provedora do conjunto de dados. Isso é especialmente importante caso modificações
consideráveis no conjunto de dados tenham sido feitas por essa organização. O mesmo pode ser aplicado aos
conjuntos de dados gerados por duas ou mais organizações. No caso de conjuntos de dados gerados ou sob
responsabilidade de organizações como a Embrapa, que possuem várias unidades, identifica-se a unidade da
organização responsável pelo conjunto de dados, nunca apenas a organização. Em todo caso, é fundamental
garantir que ambos endereços físico e eletrônico sejam válidos e atuais.

## Autoria {#autor}

Os autores ou responsáveis pelo conjunto de dados são identificados usando os campos `autor_nome` 
e `autor_email` (Tabela \@ref(tab:autor)). Quando o acesso aos autores é impossível ou limitado, 
identifica-se as pessoas que atualmente detém responsabilidade técnica sobre o conjunto de dados. No caso de 
trabalhos acadêmicos, como monografias, dissertações e teses, identifica-se tanto o discente como o docente 
orientador principal do trabalho acadêmico.

```{r, echo=FALSE}
tabela <- 
  rbind(
    c("autor_nome", "nome completo dos autores"),
    c("autor_email", "endereço de e-mail atual dos autores")
  )
colnames(tabela) <- c("**campo**", "**valor**")
pander(tabela, caption = "(\\#tab:autor) Campos usados para identificação dos autores do conjunto de dados.")
```

Sempre que um conjunto de dados possuir dois ou mais autores, insere-se os respectivos dados de identificação 
separados por ponto e vírgula. Assim como no caso da identificação da organização responsável, é importante 
garantir que o endereço de e-mail dos autores do conjunto de dados seja válido e atual. Isso é fundamental 
para permitir o contato com os autores sempre que surgirem dúvidas sobre o conjunto de dados. O conhecimento 
do nome completo dos autores também é fundamental para permitir que os devidos créditos lhes sejam atribuídos
sempre que o conjunto de dados for distribuído, remixado, adaptado ou usado para criar outros produtos 
(Seção \@ref(licenca)).

## Contribuições {#contribuidor}

Os autores de modificações num conjunto de dados são identificados usando três campos similares àqueles usados
para identificar os autores ou responsáveis pelo conjunto de dados (Tabela \@ref(tab:contribuidor)). No 
**febr**, modificações constituem contribuições à melhoria do conjunto de dados, sendo sempre mencionadas
na descrição do conjunto de dados (Seção \@ref(descricao)), e geralmente resultando em uma nova versão do conjunto de dados (Seção \@ref(versao)). Como a inserção de um conjunto de dados no **febr** geralmente 
requer algum tipo de modificação, por menor que seja, os integrantes da Equipe **febr** costuma figurar 
como autores de contribuições à sua melhoria.

```{r, echo=FALSE}
tabela <- 
  rbind(
    c("contribuidor_nome", "nome dos autores das contribuições"),
    c("contribuidor_email", "endereço de e-mail atual dos autores das contribuições"),
    c("contribuidor_organizacao", "organização à qual os autores das contribuições estão afiliados")
  )
colnames(tabela) <- c("**campo**", "**valor**")
cap <- "(\\#tab:contribuidor) Campos para identificação dos autores de contribuições para o conjunto de dados."
pander(tabela, caption = cap)
```

A apropriada identificação dos autores das modificações num conjunto de dados é fundamental para permitir o 
contato com os mesmos sempre que surgirem dúvidas sobre as novas versões do conjunto de dados. Além disso, 
permite atribuir o devido crédito quando se deseja referenciar uma versão específica do conjunto de dados. 
Contudo, recomenda-se sempre dar crédito aos autores originais do conjunto de dados, independentemente da sua
versão (Seção \@ref(autor)).

## Referências

Uma referência permanente e válida a documento ou artigo científico onde a versão original e/ou a versão atual do conjunto de dados foi usado, preferencialmente, pela primeira vez, é informada usando o item `dataset_referencia_i`. Sempre que possível se usa um Digital Object Identifier ([DOI][doi]), mas uma URL costuma ser a mais usada, especialmente para documentos antigos e trabalhos acadêmicos.

[doi]: https://www.doi.org/

Tantas referências quantas forem julgadas pertinentes podem ser inseridas, numeradas sequencialmente em ordem de importância, usando-se para isso o índice `i` do campo `dataset_referencia_i`. No caso de os responsáveis atuais pelo conjunto de dados não serem os seus autores originais, é imprescindível que a referência principal, `dataset_referencia_1`, seja a um trabalho dos autores do conjunto de dados. Já a referência secundária, `dataset_referencia_2`, pode ser a um trabalho dos responsáveis atuais pelo conjunto de dados. No caso de trabalhos acadêmicos, como monografias, dissertações e teses, costuma-se inserir uma referência ao trabalho acadêmico e ao artigo onde o conjunto de dados foi utilizado pela primeira vez. No caso de o conjunto de dados ter passado por modificações consideráveis, uma referência ao trabalho onde a nova versão tenha sido usada pela primeira vez também é inserida. Para adicionar novas referências, basta inserir, na sequência, novas linhas na tabela `dataset`, usando o índice `i` para indicar sua ordem.

## Indexação {#indexa}

Três campos são usados para indexação dos conjuntos de dados e sua otimização para ferramentas de busca 
(Tabela \@ref(tab:indexa)). O primeiro deles é a área de especialidade da Agronomia-Ciência do Solo à qual o
conjunto de dados está relacionado. São seis as áreas de especialidade definidas pelo Conselho Nacional de
Desenvolvimento Científico e Tecnológico ([CNPq][cnpq]) e a Coordenação de Aperfeiçoamento de Pessoal de Nível
Superior ([CAPES][capes]):

* Gênese, Morfologia e Classificação dos Solos
* Física do Solo
* Química do Solo
* Microbiologia e Bioquímica do Solo
* Fertilidade do Solo e Adubação
* Manejo e Conservação do Solo

[cnpq]: http://cnpq.br/documents/10157/186158/TabeladeAreasdoConhecimento.pdf
[capes]: http://www.capes.gov.br/avaliacao/instrumentos-de-apoio/tabela-de-areas-do-conhecimento-avaliacao

```{r, echo=FALSE}
tabela <- 
  rbind(
    c("area_conhecimento", "área da especialidade segundo CAPES e CNPq"),
    c("palavras_chave", "termos descritores do conjunto de dados"),
    c("categoria_vcge", "classificação dentre as atividades de órgãos públicos")
  )
colnames(tabela) <- c("**campo**", "**autor**")
pander(tabela, caption = "(\\#tab:indexa) Campos utilizados para a indexação do conjunto de dados.")
```

O segundo campo consiste de uma lista de termos que descrevem aspectos importantes do conjunto de dados, 
preferencialmente diferentes daqueles constantes no título, sendo separados por ponto e vírgula. Uma lista de
termos bem elaborada aumenta o potencial de descoberta do conjunto de dados por mecanismos de busca.

O terceiro campo é a Categoria do Vocabulário Controlado do Governo Eletrônico ([VCGE][vcge]). O VCGE é um
esquema padronizado, de assuntos e categorias, usado para facilitar a apresentação e identificação dos serviços
disponibilizados em uma estrutura de diretórios online. O objetivo do VCGE é ajudar os cidadãos a encontrar
informações em catálogos de dados públicos sem a necessidade de conhecer a organização responsável pelo
assunto ou categoria.

[vcge]: http://vocab.e.gov.br/2011/03/vcge#esquema