-
Notifications
You must be signed in to change notification settings - Fork 1
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
52 changed files
with
2,512 additions
and
314 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,74 +1,18 @@ | ||
# Projetos implementados pelos alunos | ||
# Projetos finais | ||
|
||
Os projetos escolhidos pelos alunos em 2023/1 foram: | ||
Neste documento você irá encontrar informações sobre o projeto final da disciplina de *Reinforcement Learning*. Na seção [Agenda de entregas](#agenda-de-entregas) você encontrará as datas para as entregas intermediárias e finais do projeto. Na seção [Agenda das apresentações](#agenda-das-apresentações) você encontrará as datas e horários das apresentações dos projetos. Neste semestre todas as apresentações irão acontecer no dia **22/05/2024**. | ||
|
||
| Estudante | Título do projeto | | ||
|:----------|:------------------| | ||
|André Vital Tavernaro| Unity RL Agent | | ||
|Beatriz Rianho Bernardino| Reinforcement Learning e Mobilidade Urbana| | ||
|Carlos Eduardo Dip| Usando Reinforcement Learning para implementar um jogador de Connect4| | ||
|Eduardo Cunha| Implementação de um environment para jogo de Pokemon| | ||
|Felipe Souza | Reinforcement Learning para o problema do caixeiro viajante| | ||
|Gustavo Marques Borges| Usando Reinforcement Learning para implementar um jogador de Flappy Bird| | ||
|Henrique Marti | Implementação de agentes para o ambiente WaterWorld| | ||
|Lucas Fukada | Reinforcement Learning in Continuous Environments| | ||
|Marco Piacentini| Desenvolvimento de agentes para o ambiente Pong Colaborativo| | ||
|Matheus S. M. Oliveira| Using Reinforcement Learning for Recommendation Systems| | ||
|Nívea Lima | Criação de um environment para Campo Minado| | ||
## Agenda de entregas | ||
|
||
Basicamente, temos 3 grandes grupos de projetos: | ||
|
||
* uso de reinforcement learning para desenvolver agentes capazes de atuar em um determinado ambiente; | ||
* desenvolvimento de ambientes usando o padrão Farama, e; | ||
* uso de bibliotegas gráficas integradas com bibliotecas para reinforcement learning. | ||
|
||
## Orientações gerais | ||
|
||
Para os trabalhos que tem como objetivo **usar reinforcement learning para desenvolver agentes**, deve-se ter claro na documentação e apresentação os seguintes aspectos: | ||
|
||
* regras gerais do ambiente: problema, objetivos, single ou multi-agent, cooperativo ou colaborativo, entre outras informações relevantes para entender o ambiente. | ||
* Qual é o action space? O espaço é contínuo ou discreto? Qual é a quantidade de ações? | ||
* Como os estados são representados? | ||
* Como é a função de reward? | ||
* Qual ou quais algoritmos foram escolhidos para implementar a solução? Qual foi o principal motivo desta escolha? | ||
* Quais foram os resultados obtidos? | ||
|
||
Para os trabalhos que tem como objetivo **desenvolver um ambiente** dentro do padrão Farama, deve-se ter claro na documentação e apresentação os seguintes aspectos: | ||
|
||
* regras gerais do ambiente: problema, objetivos, single ou multi-agent, cooperativo ou colaborativo, entre outras informações relevantes para entender o ambiente. | ||
* Qual é o action space? O espaço é contínuo ou discreto? Qual é a quantidade de ações? | ||
* Como os estados são representados? | ||
* Como é a função de reward? | ||
|
||
Deve-se justificar muito bem o por quê destas decisões. Além disso, deve-se implementar, no mínimo, um exemplo de agente atuando e aprendendo a atuar neste ambiente novo. | ||
|
||
Para os trabalhos que tem como foco **o uso de bibliotecas gŕaficas integradas com bibliotecas de reinforcement learning**, deve-se ter claro na documentação e apresentação os seguintes aspectos: | ||
|
||
* regras gerais do ambiente: problema, objetivos, single ou multi-agent, cooperativo ou colaborativo, entre outras informações relevantes para entender o ambiente. | ||
* Qual é o action space? O espaço é contínuo ou discreto? Qual é a quantidade de ações? | ||
* Como os estados são representados? | ||
* Como é a função de reward? | ||
* Qual ou quais algoritmos foram escolhidos para implementar a solução? Qual foi o principal motivo desta escolha? | ||
* Quais foram os resultados obtidos? | ||
|
||
Deve-se utilizar exemplos que ilustram o funcionamento desta biblioteca de uma forma que outras pessoas poderão utilizar este material como referência para o aprendizado do mesmo. | ||
--8<-- "plano_aula_5.md" | ||
|
||
## Agenda das apresentações | ||
|
||
|Data e horário da apresentação | Estudante | Título do projeto | Material extra | | ||
Cada equipe terá **10 minutos** para apresentar o projeto e depois **5 minutos** para responder perguntas da plateia. As apresentações acontecerão no dia **22/05/2024**. | ||
|
||
|Data e horário da apresentação | Estudantes | Título do projeto | Material extra | | ||
|:----------|:----------|:------------------|:-----------------------------------| | ||
|25/05/2023 15:45 |Beatriz Rianho Bernardino| [Reinforcement Learning e Mobilidade Urbana](./projects/veiculos_mobilidade.pdf)| Além do link para o relatório, vale a pena destacar o link para a biblioteca utilizada neste projeto: [http://highway-env.farama.org/](http://highway-env.farama.org/) | | ||
|25/05/2023 16:05 |Carlos Eduardo Dip| [Usando Reinforcement Learning para implementar um jogador de Connect4](https://github.com/insper-classroom/project-02-CEDipEngineering)| Além do link para o projeto, vale a pena destavar o link para a biblioteca utilizada neste projeto: [Tianshou!](https://tianshou.readthedocs.io/en/master/)| | ||
|25/05/2023 16:25 |Felipe Souza | [Reinforcement Learning para o problema do caixeiro viajante](https://github.com/insper-classroom/project-02-felipeschiavinato) | | | ||
|25/05/2023 16:45 |Gustavo Marques Borges| Usando Reinforcement Learning para implementar um jogador de Flappy Bird| | | ||
|25/05/2023 17:05 |Henrique Marti | Implementação de agentes para o ambiente WaterWorld| | | ||
|25/05/2023 17:25 |Lucas Fukada | Reinforcement Learning in Continuous Environments| | | ||
|30/05/2023 15:45 |Marco Piacentini| Desenvolvimento de agentes para o ambiente Pong Colaborativo| | | ||
|30/05/2023 16:05 |Matheus S. M. Oliveira| [Using Reinforcement Learning for Recommendation Systems](https://github.com/insper-classroom/project-02-matheus-1618)| | | ||
|30/05/2023 16:25 |Eduardo Cunha| Implementação de um environment para jogo de Pokemon| | | ||
|30/05/2023 16:45 |Nívea Lima | Criação de um environment para Campo Minado| | | ||
|30/05/2023 17:05 |André Vital Tavernaro| [Unity RL Agent](https://github.com/insper-classroom/project-02-roguetaver) | | | ||
|
||
## Observação importante | ||
|
||
Não esquecer que o deadline para a entrega de TODOS os artefatos é dia **25/05/2023** para todos os alunos! | ||
Não esquecer que o deadline para a entrega de TODOS os artefatos é dia **22/05/2024** para todos os alunos! |
Binary file not shown.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Oops, something went wrong.