Scripts para converter Dataset de XML das revistas do Scielo (previamente baixado) para CSV.
Esses scripts tem como objetivos analisar, selecionar, organizar e salvar informações de um dataset de arquivos XML de todas as revistas previamente baixados a partir do código ferramentas_scielo
em um arquivo CSV.
O run.py
acessa o diretório contendo as pastas de cada revista e analisa cada XML, inserindo os dados em um arquivo CSV salvo com o nome metadata_{revista}.csv
.
As seguintes informações são inseridas no CSV:
- index,
- file_name: nome do arquivo,
- article_id: identificação do arquivo,
- authors: lista de autores,
- authors affiliation: lista de filiações,
- article_title: título do artigo,
- journal_title: título do revista,
- journal_issn: ISSN da revista,
- journal_publisher: instituição da revista,
- pub_date: data da publicação,
- abstract: resumo,
- key_words: lista de palavras-chave,
- volume: volume,
- num: número,
- fpage: pasta inicial,
- lpage: página final,
- doi: DOI,
- refs: lista (contendo listas) das referências, divididas por tipo (livro, capítulo, artigo, etc)
- link pdf: link para o arquivo em PDF do artigo.
Em seguida, com a função df_final()
, todos os arquivos CSV são unidos em um único dataframe com Pandas
e salvos em um CSV chamado metadata_scielo_{yyyy-mm-dd_H-M-S}.csv
.
Elementos presentes nesse repositório foram retirados de Scielo_Journal_Metadata_Downoader, criado por johnsgomez
2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA) e Gabriel Andrade (UFBA, LABHDUFBA).