Skip to content

Latest commit

 

History

History
54 lines (37 loc) · 2.24 KB

File metadata and controls

54 lines (37 loc) · 2.24 KB

scielo_xml_to_csv

License: MIT made-with-python

Scripts para converter Dataset de XML das revistas do Scielo (previamente baixado) para CSV.

Esses scripts tem como objetivos analisar, selecionar, organizar e salvar informações de um dataset de arquivos XML de todas as revistas previamente baixados a partir do código ferramentas_scielo em um arquivo CSV.


O run.py acessa o diretório contendo as pastas de cada revista e analisa cada XML, inserindo os dados em um arquivo CSV salvo com o nome metadata_{revista}.csv.

⚠️ É preciso definir o caminho do diretório com o dataset. E a estrutura desse dataset deve conter diretórios de cada revista (ou edições) com seus arquivos XML a serem analisados.


As seguintes informações são inseridas no CSV:

  • index,
  • file_name: nome do arquivo,
  • article_id: identificação do arquivo,
  • authors: lista de autores,
  • authors affiliation: lista de filiações,
  • article_title: título do artigo,
  • journal_title: título do revista,
  • journal_issn: ISSN da revista,
  • journal_publisher: instituição da revista,
  • pub_date: data da publicação,
  • abstract: resumo,
  • key_words: lista de palavras-chave,
  • volume: volume,
  • num: número,
  • fpage: pasta inicial,
  • lpage: página final,
  • doi: DOI,
  • refs: lista (contendo listas) das referências, divididas por tipo (livro, capítulo, artigo, etc)
  • link pdf: link para o arquivo em PDF do artigo.

Em seguida, com a função df_final(), todos os arquivos CSV são unidos em um único dataframe com Pandas e salvos em um CSV chamado metadata_scielo_{yyyy-mm-dd_H-M-S}.csv.


Elementos presentes nesse repositório foram retirados de Scielo_Journal_Metadata_Downoader, criado por johnsgomez


Licença

MIT Licence

2020 Eric Brasil (IHL/UNILAB, LABHDUFBA), Leonardo Nascimento (UFBA, LABHDUFBA) e Gabriel Andrade (UFBA, LABHDUFBA).