GitHub - kimternet/NLP: 자연어 처리(Natural Language Processing)

1. 자연어처리(NLP)

텍스트 처리
영어 처리
- 대소문자 통합
- 정규화(Normalization)
- 정규표현식(match, compile, search, split, sub, findall, finditer)
토큰화(Tokenization)
- 단어 토큰화
- 문장 토큰화
- 정규 표현식을 이용한 토큰화
- 케라스를 이용한 토큰화
- TextBlob을 이용한 토큰화
- 기타 토크나이저
n-gram 추출
Pos(Parts of Speech) 태깅
불용어 제거
철자 교정
언어의 단수화와 복수화
어간(Stemming) 추출
표제어(Lemmatization) 추출
개체명 인식(Named Entity Recognition)
단어 중의성(Lexical Ambiguity)
한국어 처리
- 정규 표현식(match, search, sub)
- 토큰화(Tokenization) - 한국어 자연어 처리 konlpy와 형태소 분석기 Mecab설치,단어 토큰화,문장 토큰화, 정규 표현식을 이용한 토큰화, 케라스를 이용한 토큰화, TextBlob을 이용한 토큰화
- Bag of Words(Bow)
- 문서 단어 행렬(DTM)
- 어휘 빈도- 문서 역빈도(TF-IDF)분석

2. 키워드 분석(Keyword Analysis)

한글 폰트 설정
한국어 자연어 처리 konlpy와 형태소 분석기 설치
네이버 영화 리뷰 데이터
형태소 분석을 이용한 명사 추출
- 불용어(Stopwords)사전 만들기
- 불용어를 제외하여 형태소 분석 수행
단어 빈도수 측정
단어 빈도 시각화
워드클라우드(WordCloud)
squarify 트리맵 시각화

3. 군집 분석(Cluster Analysis)

Word2Vec 생성
Scikit-learn, Scipy를 이용한 계층적 군집화
- Scikit-learn
  - ward
  - average
  - complete
- Scipy
Scikit-learn을 이용한 비계층적 군집화
- 클러스터 개수 3
- 클러스터 개수 6

4. 문서 분류(Document Classification)

Scikit-learn을 이용한 문서 분류
- Logistic Regression
- Support Vector Machine
- Naive Bayes
  - DTM을 이용한 Naive Bayes
  - tf-idf를 이용한 정확도 향상
- Decision Tree
- XGBoost
교차 검증
정밀도와 재현률
그리드 검색을 이용한 파라미터 최적화

5. 의미 연결망 분석(Semantic Network Analysis)

n-gram
어휘 동시 출현 빈도의 계수화
중심성(Centrality)지수
- 연결 중심성(Degree Centrality)
- 위세 중심성(Eigenvector Centrality)
- 근접 중심성(Closeness Centrality)
- 매개 중심성(Betweeness Centrality)
- 페이지랭크(PageRank)

6. 토픽 모델링(Topic Modeling)

잠재 의미 분석(Latent Semantic Analysis)
잠재 디리클레 할당(Latent Dirichlet Allocation)
Gensim을 이용한 토픽 모델링
- 잠재 의미 분석을 위한 LsiModel
- 잠재 디리클레 할당을 위한 LdaModel
토픽 모델링 시각화

7. 감정 분석(Sentiment Analysis)

감정 어휘 사전을 이용한 감정 상태 분류
- 감정 사전 준비
- 데이터 준비
- 감정 상태 분류 및 시각화
기계학습을 이용한 감정 분석
- 한국어 자연어 처리 konlpy와 형태소 분석기 Mecab
네이버 영화 리뷰 데이터 활용
- 데이터로드
- 중복 및 결측치 처리
- 데이터 정제
- 토큰화 및 불용어 제거
- 빈도 수가 낮은 단어 제거
- 패딩
- 모델 구축 및 학습
- 시각화
- 감정 예측측

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
1. 자연어_처리(Natural_Language_Processing).ipynb		1. 자연어_처리(Natural_Language_Processing).ipynb
2. 키워드_분석(Keyword_Analysis).ipynb		2. 키워드_분석(Keyword_Analysis).ipynb
3. 군집분석(Cluster_Analysis).ipynb		3. 군집분석(Cluster_Analysis).ipynb
4. 문서분류(Document_Classification).ipynb		4. 문서분류(Document_Classification).ipynb
5. 의미 연결망 분석(Semantic_Network_Analysis).ipynb		5. 의미 연결망 분석(Semantic_Network_Analysis).ipynb
6. 토픽 모델링(Topic_Modeling).ipynb		6. 토픽 모델링(Topic_Modeling).ipynb
7. 감정분석(Sentiment_Analysis).ipynb		7. 감정분석(Sentiment_Analysis).ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

1. 자연어처리(NLP)

2. 키워드 분석(Keyword Analysis)

3. 군집 분석(Cluster Analysis)

4. 문서 분류(Document Classification)

5. 의미 연결망 분석(Semantic Network Analysis)

6. 토픽 모델링(Topic Modeling)

7. 감정 분석(Sentiment Analysis)

About

Releases

Packages

Languages

kimternet/NLP

Folders and files

Latest commit

History

Repository files navigation

1. 자연어처리(NLP)

2. 키워드 분석(Keyword Analysis)

3. 군집 분석(Cluster Analysis)

4. 문서 분류(Document Classification)

5. 의미 연결망 분석(Semantic Network Analysis)

6. 토픽 모델링(Topic Modeling)

7. 감정 분석(Sentiment Analysis)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages