네이버 실시간 검색어 기능이 사라진 현재, 사람들이 가장 많이 사용한다고 할 수 있는 유튜브 기반 인기 급상승 영상에 달린 댓글을 통해 영상 카테고리별 단어 사용 실태와 영상별 키워드를 추출해낸 프로젝트입니다.
23.04.27 ~ 23.05.05
이름 | 역할 |
---|---|
김상희 | 크롤러, 프론트 |
김태준 | 크롤러, 벡엔드 |
박경모 | 크롤러, 백엔드 |
임형우 | 크롤러, 벡엔드 |
이하윤 | 크롤러, 프론트 |
- clone 명령어로 해당 폴더 복제
git clone https://github.com/TAEJUN1293/Youtube_Comment_Web.git
- 가상환경 생성 및 활성화
$ py -m venv project-name
$ project-name\Scripts\activate.bat
- 폴더 이동 및 서버실행
$ cd youtube_comment_web
$ python manage.py runserver
인기 급상승 채널 중 카테고리(최신, 음악, 게임, 영화) 에 한해 올라와 있는 모든 영상들의 데이터 크롤링 및 json으로 가공
< raw data > 크롤링 실행 결과
category : [최신, 음악, 게임, 영화]
title : 영상별 제목
img_url : 영상별 썸네일 이미지
count_of_views : 영상별 조회수
url : 영상별 url
count_of_comments : 영상별 전체 댓글수
comments_all : 영상별 크롤링한 전체 댓글 리스트
scrap_count : 영상별 크롤링한 샘플 댓글수
comments : 영상별 상위 댓글 30개
word_frequency : 영상별 크롤링한 댓글 중 모든 키워드 빈도수
keyword : 영상별 크롤링한 댓글 중 키워드 상위 30개
video_id : 영상별 unique id
< json_data > 데이터베이스에 저장할 수 있는 포맷으로 가공한 데이터
comment : { video_id : [comments], }
keyword : { video_id : "keyword", }
video : { video_id : [ thumbnail_url, title, url, count_of_view, count_of_comment ], }