- 텍스트 처리
- 영어 처리
- 대소문자 통합
- 정규화(Normalization)
- 정규표현식(match, compile, search, split, sub, findall, finditer)
- 토큰화(Tokenization)
- 단어 토큰화
- 문장 토큰화
- 정규 표현식을 이용한 토큰화
- 케라스를 이용한 토큰화
- TextBlob을 이용한 토큰화
- 기타 토크나이저
- n-gram 추출
- Pos(Parts of Speech) 태깅
- 불용어 제거
- 철자 교정
- 언어의 단수화와 복수화
- 어간(Stemming) 추출
- 표제어(Lemmatization) 추출
- 개체명 인식(Named Entity Recognition)
- 단어 중의성(Lexical Ambiguity)
- 한국어 처리
- 정규 표현식(match, search, sub)
- 토큰화(Tokenization) - 한국어 자연어 처리 konlpy와 형태소 분석기 Mecab설치,단어 토큰화,문장 토큰화, 정규 표현식을 이용한 토큰화, 케라스를 이용한 토큰화, TextBlob을 이용한 토큰화
- Bag of Words(Bow)
- 문서 단어 행렬(DTM)
- 어휘 빈도- 문서 역빈도(TF-IDF)분석
- 한글 폰트 설정
- 한국어 자연어 처리 konlpy와 형태소 분석기 설치
- 네이버 영화 리뷰 데이터
- 형태소 분석을 이용한 명사 추출
- 불용어(Stopwords)사전 만들기
- 불용어를 제외하여 형태소 분석 수행
- 단어 빈도수 측정
- 단어 빈도 시각화
- 워드클라우드(WordCloud)
- squarify 트리맵 시각화
- Word2Vec 생성
- Scikit-learn, Scipy를 이용한 계층적 군집화
- Scikit-learn
- ward
- average
- complete
- Scipy
- Scikit-learn
- Scikit-learn을 이용한 비계층적 군집화
- 클러스터 개수 3
- 클러스터 개수 6
- Scikit-learn을 이용한 문서 분류
- Logistic Regression
- Support Vector Machine
- Naive Bayes
- DTM을 이용한 Naive Bayes
- tf-idf를 이용한 정확도 향상
- Decision Tree
- XGBoost
- 교차 검증
- 정밀도와 재현률
- 그리드 검색을 이용한 파라미터 최적화
- n-gram
- 어휘 동시 출현 빈도의 계수화
- 중심성(Centrality)지수
- 연결 중심성(Degree Centrality)
- 위세 중심성(Eigenvector Centrality)
- 근접 중심성(Closeness Centrality)
- 매개 중심성(Betweeness Centrality)
- 페이지랭크(PageRank)
- 잠재 의미 분석(Latent Semantic Analysis)
- 잠재 디리클레 할당(Latent Dirichlet Allocation)
- Gensim을 이용한 토픽 모델링
- 잠재 의미 분석을 위한 LsiModel
- 잠재 디리클레 할당을 위한 LdaModel
- 토픽 모델링 시각화
- 감정 어휘 사전을 이용한 감정 상태 분류
- 감정 사전 준비
- 데이터 준비
- 감정 상태 분류 및 시각화
- 기계학습을 이용한 감정 분석
- 한국어 자연어 처리 konlpy와 형태소 분석기 Mecab
- 네이버 영화 리뷰 데이터 활용
- 데이터로드
- 중복 및 결측치 처리
- 데이터 정제
- 토큰화 및 불용어 제거
- 빈도 수가 낮은 단어 제거
- 패딩
- 모델 구축 및 학습
- 시각화
- 감정 예측측