Desafio Web Crawling

O desafio consiste em desenvolver uma aplicação web crawling que navegue em todas as páginas filhas a partir de uma BASE_URL (url inicial), cumprindo os requisitos estabelecidos, principalmente, sem instalar novos frameworks e utilizando apenas código Java sem alterar o pom.xml e Dockerfile. Exemplo: se a URL base foi definida como http://exemplo.com/site/, um link para http://exemplo.com/site/pagina.html deve ser visitado; já um link para http://exemplo.com/blog/ não deve ser visitado.

O exemplo de resultado esperado se encontra no arquivo results_four.txt

Requisitos

Compilação e execução

docker build . -t axreng/backend

Use a flag -v no comando a seguir para especificar onde serão salvos os resultados na máquina host. Devido à isso será necessário alteração do caminho marcado C:\Users\willi\Desktop\results:/root/Desktop/results para uma pasta local onde deseja salvar os resultados.

Mude também a MAVEN_HOME para a variável de ambiente na máquina onde se encontra a pasta .m2 do usuário.

docker run -v MAVEN_HOME:/root/.m2 -v C:\Users\willi\Desktop\results:/root/Desktop/results -e BASE_URL=http://hiring.axreng.com/ -e KEYWORD=four --rm axreng/backend

Entre as variáveis disponíveis no programa estão:

BASE_URL -> site no qual o programa deve iniciar a busca pela paravra chave.

KEYWORD -> indica a palavra a ser procurada pelo programa durante a iteração no site.

MAX_RESULTS -> indica quando o programa deve parar sua execução após encontrar uma quantidade definida de urls.

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
src		src
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
pom.xml		pom.xml
results_four.txt		results_four.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Desafio Web Crawling

Requisitos

Compilação e execução

About

Releases

Packages

Languages

WilliamsJose/Desafio-WebCrawling

Folders and files

Latest commit

History

Repository files navigation

Desafio Web Crawling

Requisitos

Compilação e execução

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages