Acervo digital

Mantendo e organizando seu acervo de documentos digitais.

Esta é uma série de artigos sobre o meu fluxo de trabalho para pesquisa e produção de textos. A primeira parte da série apresentou uma visão geral; as demais detalham ferramentas e funções do fluxo.

Acervo digital

Qualquer que seja o seu projeto, muitas fontes escritas de informação estarão em formatos digitais – por exemplo, artigos científicos em formato .PDF, ou e-books em formato .EPUB. Este é o seu acervo digital.

Como tudo em seu fluxo de trabalho, ele precisa estar organizado. Isso quer dizer que ele precisa realizar, ou facilitar, as seguintes atividades:

  1. manutenção de cópias de segurança – por razões que já mencionei na segunda parte;
  2. operações de inclusão, alteração e exclusão de novos itens, mantendo a organização existente;
  3. localização da informação – de nada adianta ter os melhores livros, se você não os encontra;
  4. consulta – depois de encontrar, o acesso de leitura tem que ser fácil;
  5. anotações, parte essencial do trabalho de um pesquisador;
  6. citações e referências, essenciais em trabalhos acadêmicos.

Leitores da área de Informática provavelmente vão reconhecer os dois itens iniciais: eles são elementos essenciais de qualquer base de dados. Não é à toa; o seu acervo digital é exatamente isso.

Este é um caso no qual o git pode não ser uma boa alternativa, por razões que vou aprofundar mais abaixo. Na verdade, a manutenção e uso do seu acervo demandam o uso de várias ferramentas. Três são especialmente importantes: Calibre, Free File Sync, e JabRef.

A base do acervo

O Calibre é a parte mais essencial do seu acervo. Este software é um gerenciador de coleções de e-books, ou livros digitais. O Calibre não tem formatos preferidos; aceita uma grande quantidade de formatos diferentes.

Eu falei, acima, que o seu acervo é uma base de dados. O Calibre implementa isso diretamente, criando um arquivo de base de dados, com todas as informações sobre os seus livros, que por sua vez ficam organizados em um sistema de pastas próprio.

Isso traz duas consequências importantes. A primeira: não faça acesso diretamente aos arquivos do Calibre. Não use um gerenciador de arquivos para procurar os arquivos que lhe interessam dentro das pastas gerenciadas pelo Calibre. Use o próprio Calibre para isso. O risco é que você, inadvertidamente, faça alterações que impeçam o uso normal do Calibre.

A segunda: enquanto o programa do Calibre está sendo executado, o arquivo de base de dados pode estar sendo alterado. De forma geral, considere que o arquivo de base de dados sofre alterações constantes. Por outro lado, os documentos digitais, em si, mudam muito pouco. Depois que um livro em .PDF é colocado no Calibre, por exemplo, este arquivo não sofre alterações.

Temos, então, um arquivo que sofre mudanças frequentes, e um conjunto grande de arquivos que quase não muda. Não há necessidade de controle de versões de qualquer destes arquivos. Por isso, especialmente se o acervo é grande – centenas ou milhares de documentos –, o git pode não ser o mais adequado para cópias de segurança e para permitir acesso remoto.

Mas usar uma ferramenta como o DropBox, juntamente com o Calibre, não é trivial como pode parecer. Justamente pelo aviso que eu dei acima: enquanto o programa está em uso, o arquivo com a base de dados está sendo constantemente modificado. Copiá-lo no meio de uma operação pode tornar a cópia inutilizável. Por isso, não coloque a pasta do seu acervo diretamente na pasta do DropBox.

Aviso importante: o GoogleDrive NÃO é compatível com o Calibre.

O procedimento recomendado é outro. Todas as cópias do seu acervo precisam ser feitas com o Calibre encerrado – e preste atenção para que ele não esteja apenas minimizado na área de sistemas. Depois que você fechar completamente o Calibre, você poderá fazer a cópia do seu acervo – por exemplo, para a pasta do DropBox, ou mandar um commit para seu repositório git.

Mas há aqui um detalhe. Como eu mencionei acima, o arquivo com a base de dados muda constantemente, mas os arquivos com os documentos não. Então, não vale a pena fazer uma cópia do acervo inteiro, mas apenas das partes que tenham sido modificadas.

É aqui que entra o Free File Sync, que eu mencionei acima. É uma ferramenta gratuita, que mantém sincronizadas duas cópias de pastas, fazendo apenas as cópias necessárias quando há modificações. Reitero: depois que você fechar o Calibre, use o Free File Sync para copiar seu acervo para o local da cópia de segurança.

Seja no DropBox ou seja em um repositório git, lembre-se que esta é uma cópia de segurança, e não deve ser usada diretamente. Se você precisar usar seu acervo em outro equipamento, crie uma cópia no novo equipamento, a partir da cópia de segurança; mas não esqueça de ressincronizar as cópias sempre que fechar o Calibre.

Todos estes cuidados são preliminares necessárias para atender ao critério 1 da lista acima. Vamos ver o que fazer com o Calibre em si, pensando nos critérios subsequentes.

O que colocar no acervo

Inclusão, exclusão e alteração de registros são as três operações fundamentais de qualquer base de dados. Por isso, são realizadas com facilidade em uma instalação do Calibre, onde cada registro é um documento digital – vou chamar todos de “livros” para simplificar.

Pouco há o que falar sobre remover livros, exceto para notar que a remoção pode ser seletiva. Por exemplo, se um mesmo livro está presente em formato .PDF e em formato .MOBI, é possível remover apenas um dos formatos.

Inclusão de livros é igualmente simples, mas pode causar um tipo de problema: a inclusão de livros que já estão na base de dados. O sistema de inclusão do Calibre faz uma verificação preliminar desta possibilidade, mas esta verificação é superficial, por motivos que esclareço melhor mais abaixo.

O ponto crucial do uso do Calibre está nas alterações dos registros. Não se trata, aqui, de alterar os documentos em si – mas de alterar os seus metadados.

Metadados são informações sobre um livro: tanto as informações mais básicas (autor, título, data de publicação, editora) quanto informações mais elaboradas (ISBN, linguagem, sumário, capa, assunto, palavras-chave, …).

São informações absolutamente necessárias para qualquer trabalho mais sério com estes livros. Infelizmente, de forma geral, estas informações não constam de forma estruturada ou uniforme em documentos digitais.

Vejamos uma situação simples, bastante comum. Um artigo publicado em um congresso científico, disponível gratuitamente nos anais do evento, em formato .PDF. O título do artigo aparece em destaque na primeira página, “Apresentando prolegômenos à introdução de sumários”, seguido do nome do autor, “C. Marius Fulanus”. O nome do arquivo .PDF, na página do evento, é “88321a.pdf”. Os campos de “propriedades” do arquivo .PDF (metadados básicos) informam que o título do documento é “Full paper”, que o seu autor é “MS Word”, e outras inutilidades derivadas do processo de criação da versão em .PDF.

O problema: quando este arquivo for incluído no seu acervo digital, o Calibre vai usar os campos de propriedades do .PDF para os metadados deste novo registro. Então, você terá um registro com o título “Full paper” e o autor “MS Word”.

Isto não é um problema do Calibre, mas uma consequência de descaso dos criadores de formatos digitais. É claro que um humano consegue ver o título correto em destaque na primeira página. Então, uma tarefa absolutamente essencial em um acervo mantido pelo Calibre é corrigir e complementar os metadados de cada documento que é acrescentado a ele.

Ainda que um documento traga estes metadados todos, de forma correta, é necessário verificar isso, e quase certamente será necessário incluir informações adicionais.

Quando é instalado, o Calibre vem configurado com alguns campos bastante úteis para metadados adicionais: tags (palavras-chave), comentários, e uma nota (com uma a cinco estrelas). Continuando o exemplo que usei acima: depois que eu incluí o arquivo, uso a tela de edição de metadados para corrigir título e nome do autor; depois, coloco no campo de comentários algo como “Uma boa introdução não-técnica ao assunto, tem boas referências”; dou uma nota de três estrelas (indicando que não é um dos meus documentos mais importantes); e acrescento as tags “artigo, congresso, introdução, sofismas”.

Depois que isso está feito, o critério 3 – busca de documentos em meu acervo – fica consideravelmente mais simples. Posso usar a barra de pesquisa do Calibre, escrever “introdução não-técnica”, e o programa retorna este artigo. Ou posso ver o registro deste artigo, clicar no nome “C. Marius Fulanus” e ver todos os documentos do acervo com este autor. Ou ainda clicar na tag “artigo” e ver todos os documentos do acervo que têm esta tag.

Note que tudo isso é possível somente depois que você, o pesquisador, colocar estas informações lá. Este é o análogo exato, em formato digital, do “fichamento de livros” tão endeusado em manuais de pesquisas. Não há alternativa aqui: o Calibre consegue recuperar algumas informações, mas sempre há informações que são peculiares a cada pesquisador, a cada trabalho. Você não pode delegar isso ao Calibre, você mesmo tem que escrever estas informações; em contrapartida, você vai escrevê-las de forma que melhor façam sentido para você.

E ainda há um pulo do gato. O Calibre permite criar novos campos de metadados. Por exemplo, o meu acervo digital inclui os campos “Assunto”, “Categoria”, “Formato”, “Projeto” e “Selecionado” – e o campo “Assunto” é um campo hierarquizado (por exemplo, “filosofia.jogos.temporalidade”).

Este trabalho de organização é o cerne do critério 2 (inclusão, alteração, exclusão), e ele cria a possibilidade de uso eficaz do Calibre para atender ao critério 3 (pesquisa). O critério 4 é trivial – basta clicar no registro encontrado.

Já os critérios 5 (anotações) e 6 (citações e referências) começam no Calibre, mas não se exaurem nele. Por si só, o campo de comentários permite anotações, o que já é muito útil – mas não é possível associar comentários a outros registros do acervo. E as citações e referências vão usar as informações de metadados do acervo, mas não é possível usar o Calibre diretamente para este trabalho.

Em artigos subsequentes, vamos ver como as informações do Calibre podem ser usadas por outras ferramentas. Mas reitero: é imprescindível que os metadados estejam corretos, e somente o próprio pesquisador pode fazer isso corretamente.

Partes publicadas

  1. Fundamentos
  2. Organização
  3. Acervo
  4. Escrevendo
  5. Notas

Publicação anterior sobre o git: parte 1 e parte 2.

O Quartel-Mestre
O Quartel-Mestre
polímata
filomático
pesquisador
escritor

LUIZ CLÁUDIO, o Quartel-Mestre, the Rules Lawyer, conversa e escreve sobre jogadores e jogos de todos os tipos, sobre ludologia, narrativas, poesia, e mais.

Próximo
Anterior