From 373755120a860c08c5b45ce391c590f5df7e1b69 Mon Sep 17 00:00:00 2001 From: Eduardo Fischer Date: Mon, 22 Aug 2022 13:07:18 -0300 Subject: [PATCH] =?UTF-8?q?[#22]=20impota=C3=A7=C3=A3o=20de=20informa?= =?UTF-8?q?=C3=A7=C3=B5es=20sobre=20universidades=20e=20programas=20e=20co?= =?UTF-8?q?lora=C3=A7=C3=A3o=20de=20universidades=20por=20regi=C3=A3o=20e?= =?UTF-8?q?=20programas=20por=20grande=20=C3=A1rea=20de=20conhecimento?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- app/src/components/ProgramGraph.jsx | 2 +- app/src/components/UniversityGraph.jsx | 2 +- data_processing/neo4j_queries.cql | 36 +- .../universities_and_programs.ipynb | 885 ++++++++++++++++++ 4 files changed, 918 insertions(+), 7 deletions(-) create mode 100644 data_processing/universities_and_programs.ipynb diff --git a/app/src/components/ProgramGraph.jsx b/app/src/components/ProgramGraph.jsx index 9538880..0b59d81 100644 --- a/app/src/components/ProgramGraph.jsx +++ b/app/src/components/ProgramGraph.jsx @@ -62,7 +62,7 @@ function Graph() { graphData={data} nodeVal='prod_count' nodeLabel='name' - nodeAutoColorBy='name' + nodeAutoColorBy='wide_knowledge_area' nodeThreeObject={node => { const radius = sphereRadius(node.prod_count) * 4; const group = new THREE.Group(); diff --git a/app/src/components/UniversityGraph.jsx b/app/src/components/UniversityGraph.jsx index d7d85e9..c124f66 100644 --- a/app/src/components/UniversityGraph.jsx +++ b/app/src/components/UniversityGraph.jsx @@ -51,7 +51,7 @@ function Graph() { graphData={data} nodeVal='prod_count' nodeLabel='name' - nodeAutoColorBy='name' + nodeAutoColorBy='region' nodeThreeObject={node => { const radius = sphereRadius(node.prod_count) * 1.5; const group = new THREE.Group(); diff --git a/data_processing/neo4j_queries.cql b/data_processing/neo4j_queries.cql index bea7d49..bd3b59b 100644 --- a/data_processing/neo4j_queries.cql +++ b/data_processing/neo4j_queries.cql @@ -72,8 +72,21 @@ CALL { // Cria entidades universidade MATCH (a:Author) WITH a.university as university, sum(a.prod_count) AS total_prod_count -MERGE (u:University { name: university, prod_count: total_prod_count }) -ON CREATE SET u.id = id(u); +MERGE (u:University { name: university, prod_count: total_prod_count }); + +// Importa informações sobre universidades +LOAD CSV WITH HEADERS FROM 'file:///universities.csv' AS row FIELDTERMINATOR ';' +CALL { + WITH row + MATCH (u:University { name: row.SG_ENTIDADE_ENSINO }) + SET + u.id = row.CD_ENTIDADE_CAPES, + u.full_name = row.NM_ENTIDADE_ENSINO, + u.legal_status = row.CS_STATUS_JURIDICO, + u.region = row.NM_REGIAO, + u.uf = row.SG_UF_PROGRAMA, + u.city = row.NM_MUNICIPIO_PROGRAMA_IES +} IN TRANSACTIONS OF 1000 ROWS; // Cria relação author -> university MATCH (a:Author) @@ -83,8 +96,22 @@ MERGE (a)-[:WORKS_AT]->(u); // Cria entidades programas IES MATCH (a:Author) WITH a.ies_program as ies_program, a.university as university, sum(a.prod_count) AS total_prod_count -MERGE (p:Program { name: ies_program, university: university, prod_count: total_prod_count }) -ON CREATE SET p.id = id(p); +MERGE (p:Program { name: ies_program, university: university, prod_count: total_prod_count }); + +// Importa informações sobre programas IES +LOAD CSV WITH HEADERS FROM 'file:///programs.csv' AS row FIELDTERMINATOR ';' +CALL { + WITH row + MATCH (p:Program { name: row.NM_PROGRAMA_IES, university: row.SG_ENTIDADE_ENSINO }) + SET + p.id = row.CD_PROGRAMA_IES, + p.full_name = row.NM_PROGRAMA_IES, + p.wide_knowledge_area = row.NM_GRANDE_AREA_CONHECIMENTO, + p.knowledge_area = row.NM_AREA_CONHECIMENTO, + p.knowledge_subarea = row.NM_SUBAREA_CONHECIMENTO, + p.specialty = row.NM_ESPECIALIDADE, + p.rating_area = row.NM_AREA_AVALIACAO +} IN TRANSACTIONS OF 1000 ROWS; // Cria relação de colaboração entre universidades MATCH (u1:University)<-[:WORKS_AT]-(:Author)-[:AUTHOR]-(p: Production)-[:AUTHOR]-(:Author)-[:WORKS_AT]->(u2:University) @@ -103,4 +130,3 @@ WHERE p1.name <> p2.name OR p1.university <> p2.university WITH p1, p2, count(DISTINCT prod) AS collabs_count MERGE (p1)-[:COLLABORATES_WITH {collabs_count: collabs_count}]-(p2); - diff --git a/data_processing/universities_and_programs.ipynb b/data_processing/universities_and_programs.ipynb new file mode 100644 index 0000000..00fe1aa --- /dev/null +++ b/data_processing/universities_and_programs.ipynb @@ -0,0 +1,885 @@ +{ + "cells": [ + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [], + "source": [ + "import pandas as pd\n", + "pd.set_option('display.max_columns', None)" + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
AN_BASENM_GRANDE_AREA_CONHECIMENTONM_AREA_CONHECIMENTONM_SUBAREA_CONHECIMENTONM_ESPECIALIDADECD_AREA_AVALIACAONM_AREA_AVALIACAOCD_ENTIDADE_CAPESCD_ENTIDADE_EMECSG_ENTIDADE_ENSINONM_ENTIDADE_ENSINOCS_STATUS_JURIDICODS_DEPENDENCIA_ADMINISTRATIVADS_ORGANIZACAO_ACADEMICANM_REGIAOSG_UF_PROGRAMANM_MUNICIPIO_PROGRAMA_IESCD_PROGRAMA_IESNM_PROGRAMA_IESCD_CURSO_PPGNM_CURSONM_GRAU_CURSOCD_CONCEITO_CURSOAN_INICIO_PREVISTODS_SITUACAO_CURSODT_SITUACAO_CURSOID_ADD_FOTO_PROGRAMA_IESID_ADD_FOTO_PROGRAMA
02020ENGENHARIASENGENHARIA DE PRODUÇÃONÃO SE APLICANÃO SE APLICA13ENGENHARIAS III31001017586UFRJUNIVERSIDADE FEDERAL DO RIO DE JANEIROFEDERALPÚBLICAUNIVERSIDADESUDESTERJRIO DE JANEIRO31001017102P5PLANEJAMENTO ENERGÉTICO31001017102M5PLANEJAMENTO ENERGÉTICOMESTRADO61991EM FUNCIONAMENTO26JAN2017:00:00:00200018132184
12020MULTIDISCIPLINARCIÊNCIAS AMBIENTAISNÃO SE APLICANÃO SE APLICA49CIÊNCIAS AMBIENTAIS4204101523FEEVALEUNIVERSIDADE FEEVALEPARTICULARPRIVADAUNIVERSIDADESULRSNOVO HAMBURGO42041015001P2QUALIDADE AMBIENTAL42041015001M2QUALIDADE AMBIENTALMESTRADO52005EM FUNCIONAMENTO18SEP2012:00:00:00198331130693
22020CIÊNCIAS BIOLÓGICASZOOLOGIANÃO SE APLICANÃO SE APLICA7BIODIVERSIDADE42003016634UFPELUNIVERSIDADE FEDERAL DE PELOTASFEDERALPÚBLICAUNIVERSIDADESULRSCAPÃO DO LEÃO42003016053P8BIOLOGIA ANIMAL42003016053M8BIOLOGIA ANIMALMESTRADO32015EM FUNCIONAMENTO13AUG2015:00:00:00198428130790
32020MULTIDISCIPLINARINTERDISCIPLINARSOCIAIS E HUMANIDADESNÃO SE APLICA45INTERDISCIPLINAR33021015665UNITAUUNIVERSIDADE DE TAUBATÉMUNICIPALPÚBLICAUNIVERSIDADESUDESTESPTAUBATÉ33021015008P8GESTÃO E DESENVOLVIMENTO REGIONAL33021015008F0GESTÃO E DESENVOLVIMENTO REGIONALMESTRADO PROFISSIONAL42000EM FUNCIONAMENTO18SEP2012:00:00:00198496130857
42020CIÊNCIAS BIOLÓGICASECOLOGIANÃO SE APLICANÃO SE APLICA7BIODIVERSIDADE25003011587UFRPEUNIVERSIDADE FEDERAL RURAL DE PERNAMBUCOFEDERALPÚBLICAUNIVERSIDADENORDESTEPERECIFE25003011033P9ETNOBIOLOGIA E CONSERVAÇÃO DA NATUREZA25003011033M9ETNOBIOLOGIA E CONSERVAÇÃO DA NATUREZAMESTRADO52016EM FUNCIONAMENTO06APR2017:00:00:00197151129561
.......................................................................................
69952020MULTIDISCIPLINARCIÊNCIAS AMBIENTAISNÃO SE APLICANÃO SE APLICA49CIÊNCIAS AMBIENTAIS2900700318812UFSBUNIVERSIDADE FEDERAL DO SUL DA BAHIAFEDERALPÚBLICAUNIVERSIDADENORDESTEBAPORTO SEGURO29007003003P3CIÊNCIAS E TECNOLOGIAS AMBIENTAIS29007003003M3CIÊNCIAS E TECNOLOGIAS AMBIENTAISMESTRADO32017EM FUNCIONAMENTO22MAY2017:00:00:00203429134932
69962020CIÊNCIAS EXATAS E DA TERRACIÊNCIA DA COMPUTAÇÃONÃO SE APLICANÃO SE APLICA2CIÊNCIA DA COMPUTAÇÃO33002029NIUSP/RPUNIVERSIDADE DE SÃO PAULO ( RIBEIRÃO PRETO )ESTADUALPÚBLICANÃO INFORMADOSUDESTESPRIBEIRÃO PRETO33002029052P5COMPUTAÇÃO APLICADA33002029052M5COMPUTAÇÃO APLICADAMESTRADO32015EM FUNCIONAMENTO01SEP2015:00:00:00203334134879
69972020CIÊNCIAS DA SAÚDEENFERMAGEMNÃO SE APLICANÃO SE APLICA20ENFERMAGEM28001010578UFBAUNIVERSIDADE FEDERAL DA BAHIAFEDERALPÚBLICAUNIVERSIDADENORDESTEBASALVADOR28001010014P3ENFERMAGEM E SAÚDE28001010014D4ENFERMAGEMDOUTORADO52006EM FUNCIONAMENTO13MAR2019:00:00:00203214134741
69982020CIÊNCIAS SOCIAIS APLICADASSERVIÇO SOCIALNÃO SE APLICANÃO SE APLICA32SERVIÇO SOCIAL30001013573UFESUNIVERSIDADE FEDERAL DO ESPÍRITO SANTOFEDERALPÚBLICAUNIVERSIDADESUDESTEESVITÓRIA30001013020P6POLÍTICA SOCIAL30001013020M6POLÍTICA SOCIALMESTRADO52004EM FUNCIONAMENTO20SEP2012:00:00:00203000134541
69992020MULTIDISCIPLINARINTERDISCIPLINARENGENHARIA/TECNOLOGIA/GESTÃONÃO SE APLICA45INTERDISCIPLINAR3300201055USPUNIVERSIDADE DE SÃO PAULOESTADUALPÚBLICAUNIVERSIDADESUDESTESPSÃO PAULO33002010149P3ENERGIA33002010149M3ENERGIAMESTRADO61989EM FUNCIONAMENTO21JAN2019:00:00:00203662135156
\n", + "

7000 rows × 28 columns

\n", + "
" + ], + "text/plain": [ + " AN_BASE NM_GRANDE_AREA_CONHECIMENTO NM_AREA_CONHECIMENTO \\\n", + "0 2020 ENGENHARIAS ENGENHARIA DE PRODUÇÃO \n", + "1 2020 MULTIDISCIPLINAR CIÊNCIAS AMBIENTAIS \n", + "2 2020 CIÊNCIAS BIOLÓGICAS ZOOLOGIA \n", + "3 2020 MULTIDISCIPLINAR INTERDISCIPLINAR \n", + "4 2020 CIÊNCIAS BIOLÓGICAS ECOLOGIA \n", + "... ... ... ... \n", + "6995 2020 MULTIDISCIPLINAR CIÊNCIAS AMBIENTAIS \n", + "6996 2020 CIÊNCIAS EXATAS E DA TERRA CIÊNCIA DA COMPUTAÇÃO \n", + "6997 2020 CIÊNCIAS DA SAÚDE ENFERMAGEM \n", + "6998 2020 CIÊNCIAS SOCIAIS APLICADAS SERVIÇO SOCIAL \n", + "6999 2020 MULTIDISCIPLINAR INTERDISCIPLINAR \n", + "\n", + " NM_SUBAREA_CONHECIMENTO NM_ESPECIALIDADE CD_AREA_AVALIACAO \\\n", + "0 NÃO SE APLICA NÃO SE APLICA 13 \n", + "1 NÃO SE APLICA NÃO SE APLICA 49 \n", + "2 NÃO SE APLICA NÃO SE APLICA 7 \n", + "3 SOCIAIS E HUMANIDADES NÃO SE APLICA 45 \n", + "4 NÃO SE APLICA NÃO SE APLICA 7 \n", + "... ... ... ... \n", + "6995 NÃO SE APLICA NÃO SE APLICA 49 \n", + "6996 NÃO SE APLICA NÃO SE APLICA 2 \n", + "6997 NÃO SE APLICA NÃO SE APLICA 20 \n", + "6998 NÃO SE APLICA NÃO SE APLICA 32 \n", + "6999 ENGENHARIA/TECNOLOGIA/GESTÃO NÃO SE APLICA 45 \n", + "\n", + " NM_AREA_AVALIACAO CD_ENTIDADE_CAPES CD_ENTIDADE_EMEC \\\n", + "0 ENGENHARIAS III 31001017 586 \n", + "1 CIÊNCIAS AMBIENTAIS 42041015 23 \n", + "2 BIODIVERSIDADE 42003016 634 \n", + "3 INTERDISCIPLINAR 33021015 665 \n", + "4 BIODIVERSIDADE 25003011 587 \n", + "... ... ... ... \n", + "6995 CIÊNCIAS AMBIENTAIS 29007003 18812 \n", + "6996 CIÊNCIA DA COMPUTAÇÃO 33002029 NI \n", + "6997 ENFERMAGEM 28001010 578 \n", + "6998 SERVIÇO SOCIAL 30001013 573 \n", + "6999 INTERDISCIPLINAR 33002010 55 \n", + "\n", + " SG_ENTIDADE_ENSINO NM_ENTIDADE_ENSINO \\\n", + "0 UFRJ UNIVERSIDADE FEDERAL DO RIO DE JANEIRO \n", + "1 FEEVALE UNIVERSIDADE FEEVALE \n", + "2 UFPEL UNIVERSIDADE FEDERAL DE PELOTAS \n", + "3 UNITAU UNIVERSIDADE DE TAUBATÉ \n", + "4 UFRPE UNIVERSIDADE FEDERAL RURAL DE PERNAMBUCO \n", + "... ... ... \n", + "6995 UFSB UNIVERSIDADE FEDERAL DO SUL DA BAHIA \n", + "6996 USP/RP UNIVERSIDADE DE SÃO PAULO ( RIBEIRÃO PRETO ) \n", + "6997 UFBA UNIVERSIDADE FEDERAL DA BAHIA \n", + "6998 UFES UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO \n", + "6999 USP UNIVERSIDADE DE SÃO PAULO \n", + "\n", + " CS_STATUS_JURIDICO DS_DEPENDENCIA_ADMINISTRATIVA \\\n", + "0 FEDERAL PÚBLICA \n", + "1 PARTICULAR PRIVADA \n", + "2 FEDERAL PÚBLICA \n", + "3 MUNICIPAL PÚBLICA \n", + "4 FEDERAL PÚBLICA \n", + "... ... ... \n", + "6995 FEDERAL PÚBLICA \n", + "6996 ESTADUAL PÚBLICA \n", + "6997 FEDERAL PÚBLICA \n", + "6998 FEDERAL PÚBLICA \n", + "6999 ESTADUAL PÚBLICA \n", + "\n", + " DS_ORGANIZACAO_ACADEMICA NM_REGIAO SG_UF_PROGRAMA \\\n", + "0 UNIVERSIDADE SUDESTE RJ \n", + "1 UNIVERSIDADE SUL RS \n", + "2 UNIVERSIDADE SUL RS \n", + "3 UNIVERSIDADE SUDESTE SP \n", + "4 UNIVERSIDADE NORDESTE PE \n", + "... ... ... ... \n", + "6995 UNIVERSIDADE NORDESTE BA \n", + "6996 NÃO INFORMADO SUDESTE SP \n", + "6997 UNIVERSIDADE NORDESTE BA \n", + "6998 UNIVERSIDADE SUDESTE ES \n", + "6999 UNIVERSIDADE SUDESTE SP \n", + "\n", + " NM_MUNICIPIO_PROGRAMA_IES CD_PROGRAMA_IES \\\n", + "0 RIO DE JANEIRO 31001017102P5 \n", + "1 NOVO HAMBURGO 42041015001P2 \n", + "2 CAPÃO DO LEÃO 42003016053P8 \n", + "3 TAUBATÉ 33021015008P8 \n", + "4 RECIFE 25003011033P9 \n", + "... ... ... \n", + "6995 PORTO SEGURO 29007003003P3 \n", + "6996 RIBEIRÃO PRETO 33002029052P5 \n", + "6997 SALVADOR 28001010014P3 \n", + "6998 VITÓRIA 30001013020P6 \n", + "6999 SÃO PAULO 33002010149P3 \n", + "\n", + " NM_PROGRAMA_IES CD_CURSO_PPG \\\n", + "0 PLANEJAMENTO ENERGÉTICO 31001017102M5 \n", + "1 QUALIDADE AMBIENTAL 42041015001M2 \n", + "2 BIOLOGIA ANIMAL 42003016053M8 \n", + "3 GESTÃO E DESENVOLVIMENTO REGIONAL 33021015008F0 \n", + "4 ETNOBIOLOGIA E CONSERVAÇÃO DA NATUREZA 25003011033M9 \n", + "... ... ... \n", + "6995 CIÊNCIAS E TECNOLOGIAS AMBIENTAIS 29007003003M3 \n", + "6996 COMPUTAÇÃO APLICADA 33002029052M5 \n", + "6997 ENFERMAGEM E SAÚDE 28001010014D4 \n", + "6998 POLÍTICA SOCIAL 30001013020M6 \n", + "6999 ENERGIA 33002010149M3 \n", + "\n", + " NM_CURSO NM_GRAU_CURSO \\\n", + "0 PLANEJAMENTO ENERGÉTICO MESTRADO \n", + "1 QUALIDADE AMBIENTAL MESTRADO \n", + "2 BIOLOGIA ANIMAL MESTRADO \n", + "3 GESTÃO E DESENVOLVIMENTO REGIONAL MESTRADO PROFISSIONAL \n", + "4 ETNOBIOLOGIA E CONSERVAÇÃO DA NATUREZA MESTRADO \n", + "... ... ... \n", + "6995 CIÊNCIAS E TECNOLOGIAS AMBIENTAIS MESTRADO \n", + "6996 COMPUTAÇÃO APLICADA MESTRADO \n", + "6997 ENFERMAGEM DOUTORADO \n", + "6998 POLÍTICA SOCIAL MESTRADO \n", + "6999 ENERGIA MESTRADO \n", + "\n", + " CD_CONCEITO_CURSO AN_INICIO_PREVISTO DS_SITUACAO_CURSO \\\n", + "0 6 1991 EM FUNCIONAMENTO \n", + "1 5 2005 EM FUNCIONAMENTO \n", + "2 3 2015 EM FUNCIONAMENTO \n", + "3 4 2000 EM FUNCIONAMENTO \n", + "4 5 2016 EM FUNCIONAMENTO \n", + "... ... ... ... \n", + "6995 3 2017 EM FUNCIONAMENTO \n", + "6996 3 2015 EM FUNCIONAMENTO \n", + "6997 5 2006 EM FUNCIONAMENTO \n", + "6998 5 2004 EM FUNCIONAMENTO \n", + "6999 6 1989 EM FUNCIONAMENTO \n", + "\n", + " DT_SITUACAO_CURSO ID_ADD_FOTO_PROGRAMA_IES ID_ADD_FOTO_PROGRAMA \n", + "0 26JAN2017:00:00:00 200018 132184 \n", + "1 18SEP2012:00:00:00 198331 130693 \n", + "2 13AUG2015:00:00:00 198428 130790 \n", + "3 18SEP2012:00:00:00 198496 130857 \n", + "4 06APR2017:00:00:00 197151 129561 \n", + "... ... ... ... \n", + "6995 22MAY2017:00:00:00 203429 134932 \n", + "6996 01SEP2015:00:00:00 203334 134879 \n", + "6997 13MAR2019:00:00:00 203214 134741 \n", + "6998 20SEP2012:00:00:00 203000 134541 \n", + "6999 21JAN2019:00:00:00 203662 135156 \n", + "\n", + "[7000 rows x 28 columns]" + ] + }, + "execution_count": 3, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "courses_df = pd.read_csv('datasets/cursos/cursos-2020.csv', encoding='iso8859_1', delimiter=\";\")\n", + "courses_df" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "universities = courses_df.groupby('SG_ENTIDADE_ENSINO').agg('last')\n", + "universities = universities.filter([\n", + " 'CD_ENTIDADE_CAPES',\n", + " 'CD_ENTIDADE_EMEC',\n", + " 'NM_ENTIDADE_ENSINO',\n", + " 'CS_STATUS_JURIDICO',\n", + " 'DS_DEPENDENCIA_ADMINISTRATIVA',\n", + " 'NM_REGIAO',\n", + " 'SG_UF_PROGRAMA',\n", + " 'NM_MUNICIPIO_PROGRAMA_IES'\n", + "])\n", + "universities.to_csv('output/universities.csv', sep=';')\n" + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "data": { + "text/html": [ + "
\n", + "\n", + "\n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + " \n", + "
CD_PROGRAMA_IESNM_GRANDE_AREA_CONHECIMENTONM_AREA_CONHECIMENTONM_SUBAREA_CONHECIMENTONM_ESPECIALIDADENM_AREA_AVALIACAO
SG_ENTIDADE_ENSINONM_PROGRAMA_IES
ABRASCOSAÚDE DA FAMÍLIA33303002001P9CIÊNCIAS DA SAÚDESAÚDE COLETIVANÃO SE APLICANÃO SE APLICASAÚDE COLETIVA
ANDIFESADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL53045009001P3CIÊNCIAS SOCIAIS APLICADASADMINISTRAÇÃOADMINISTRAÇÃO PÚBLICANÃO SE APLICAADMINISTRAÇÃO PÚBLICA E DE EMPRESAS, CIÊNCIAS ...
CBPFFÍSICA31009018001P5CIÊNCIAS EXATAS E DA TERRAFÍSICANÃO SE APLICANÃO SE APLICAASTRONOMIA / FÍSICA
CCD/SESCIÊNCIAS33115010001P8CIÊNCIAS DA SAÚDEMEDICINACLÍNICA MÉDICADOENÇAS INFECCIOSAS E PARASITÁRIASMEDICINA II
CDTNCIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E MATERIAIS32069014001P9ENGENHARIASENGENHARIA NUCLEARAPLICAÇÕES DE RADIOISÓTOPOSINSTRUMENTAÇÃO PARA MEDIDA E CONTROLE DE RADIAÇÃOENGENHARIAS II
........................
UVVCIÊNCIA ANIMAL30011019002P0CIÊNCIAS AGRÁRIASMEDICINA VETERINÁRIANÃO SE APLICANÃO SE APLICAMEDICINA VETERINÁRIA
CIÊNCIAS FARMACÊUTICAS30011019003P6CIÊNCIAS DA SAÚDEFARMÁCIANÃO SE APLICANÃO SE APLICAFARMÁCIA
ECOLOGIA DE ECOSSISTEMAS30011019001P3CIÊNCIAS BIOLÓGICASECOLOGIAECOLOGIA DE ECOSSISTEMASNÃO SE APLICABIODIVERSIDADE
SEGURANÇA PÚBLICA30011019006P5MULTIDISCIPLINARINTERDISCIPLINARSOCIAIS E HUMANIDADESNÃO SE APLICAINTERDISCIPLINAR
SOCIOLOGIA POLÍTICA30011019005P9CIÊNCIAS HUMANASSOCIOLOGIANÃO SE APLICANÃO SE APLICASOCIOLOGIA
\n", + "

4434 rows × 6 columns

\n", + "
" + ], + "text/plain": [ + " CD_PROGRAMA_IES \\\n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA 33303002001P9 \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL 53045009001P3 \n", + "CBPF FÍSICA 31009018001P5 \n", + "CCD/SES CIÊNCIAS 33115010001P8 \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... 32069014001P9 \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL 30011019002P0 \n", + " CIÊNCIAS FARMACÊUTICAS 30011019003P6 \n", + " ECOLOGIA DE ECOSSISTEMAS 30011019001P3 \n", + " SEGURANÇA PÚBLICA 30011019006P5 \n", + " SOCIOLOGIA POLÍTICA 30011019005P9 \n", + "\n", + " NM_GRANDE_AREA_CONHECIMENTO \\\n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA CIÊNCIAS DA SAÚDE \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL CIÊNCIAS SOCIAIS APLICADAS \n", + "CBPF FÍSICA CIÊNCIAS EXATAS E DA TERRA \n", + "CCD/SES CIÊNCIAS CIÊNCIAS DA SAÚDE \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... ENGENHARIAS \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL CIÊNCIAS AGRÁRIAS \n", + " CIÊNCIAS FARMACÊUTICAS CIÊNCIAS DA SAÚDE \n", + " ECOLOGIA DE ECOSSISTEMAS CIÊNCIAS BIOLÓGICAS \n", + " SEGURANÇA PÚBLICA MULTIDISCIPLINAR \n", + " SOCIOLOGIA POLÍTICA CIÊNCIAS HUMANAS \n", + "\n", + " NM_AREA_CONHECIMENTO \\\n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA SAÚDE COLETIVA \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL ADMINISTRAÇÃO \n", + "CBPF FÍSICA FÍSICA \n", + "CCD/SES CIÊNCIAS MEDICINA \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... ENGENHARIA NUCLEAR \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL MEDICINA VETERINÁRIA \n", + " CIÊNCIAS FARMACÊUTICAS FARMÁCIA \n", + " ECOLOGIA DE ECOSSISTEMAS ECOLOGIA \n", + " SEGURANÇA PÚBLICA INTERDISCIPLINAR \n", + " SOCIOLOGIA POLÍTICA SOCIOLOGIA \n", + "\n", + " NM_SUBAREA_CONHECIMENTO \\\n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA NÃO SE APLICA \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL ADMINISTRAÇÃO PÚBLICA \n", + "CBPF FÍSICA NÃO SE APLICA \n", + "CCD/SES CIÊNCIAS CLÍNICA MÉDICA \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... APLICAÇÕES DE RADIOISÓTOPOS \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL NÃO SE APLICA \n", + " CIÊNCIAS FARMACÊUTICAS NÃO SE APLICA \n", + " ECOLOGIA DE ECOSSISTEMAS ECOLOGIA DE ECOSSISTEMAS \n", + " SEGURANÇA PÚBLICA SOCIAIS E HUMANIDADES \n", + " SOCIOLOGIA POLÍTICA NÃO SE APLICA \n", + "\n", + " NM_ESPECIALIDADE \\\n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA NÃO SE APLICA \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL NÃO SE APLICA \n", + "CBPF FÍSICA NÃO SE APLICA \n", + "CCD/SES CIÊNCIAS DOENÇAS INFECCIOSAS E PARASITÁRIAS \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... INSTRUMENTAÇÃO PARA MEDIDA E CONTROLE DE RADIAÇÃO \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL NÃO SE APLICA \n", + " CIÊNCIAS FARMACÊUTICAS NÃO SE APLICA \n", + " ECOLOGIA DE ECOSSISTEMAS NÃO SE APLICA \n", + " SEGURANÇA PÚBLICA NÃO SE APLICA \n", + " SOCIOLOGIA POLÍTICA NÃO SE APLICA \n", + "\n", + " NM_AREA_AVALIACAO \n", + "SG_ENTIDADE_ENSINO NM_PROGRAMA_IES \n", + "ABRASCO SAÚDE DA FAMÍLIA SAÚDE COLETIVA \n", + "ANDIFES ADMINISTRAÇÃO PÚBLICA EM REDE NACIONAL ADMINISTRAÇÃO PÚBLICA E DE EMPRESAS, CIÊNCIAS ... \n", + "CBPF FÍSICA ASTRONOMIA / FÍSICA \n", + "CCD/SES CIÊNCIAS MEDICINA II \n", + "CDTN CIÊNCIA E TECNOLOGIA DAS RADIAÇÕES, MINERAIS E ... ENGENHARIAS II \n", + "... ... \n", + "UVV CIÊNCIA ANIMAL MEDICINA VETERINÁRIA \n", + " CIÊNCIAS FARMACÊUTICAS FARMÁCIA \n", + " ECOLOGIA DE ECOSSISTEMAS BIODIVERSIDADE \n", + " SEGURANÇA PÚBLICA INTERDISCIPLINAR \n", + " SOCIOLOGIA POLÍTICA SOCIOLOGIA \n", + "\n", + "[4434 rows x 6 columns]" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "programs = courses_df.groupby(['SG_ENTIDADE_ENSINO', 'NM_PROGRAMA_IES']).agg('last')\n", + "programs = programs.filter([\n", + " 'CD_PROGRAMA_IES',\n", + " 'NM_GRANDE_AREA_CONHECIMENTO',\n", + " 'NM_AREA_CONHECIMENTO',\n", + " 'NM_SUBAREA_CONHECIMENTO',\n", + " 'NM_ESPECIALIDADE',\n", + " 'NM_AREA_AVALIACAO'\n", + "])\n", + "programs.to_csv('output/programs.csv', sep=';')\n", + "programs" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3.10.5 64-bit", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.10.5" + }, + "orig_nbformat": 4, + "vscode": { + "interpreter": { + "hash": "aee8b7b246df8f9039afb4144a1f6fd8d2ca17a180786b69acc140d282b71a49" + } + } + }, + "nbformat": 4, + "nbformat_minor": 2 +}