자연어 처리(Natural Language Processing)

 

* 딥 러닝을 이용한 자연어 처리 입문

https://wikidocs.net/book/2155

 

* NLP의 기본 절차와 Lexical Analysis

https://ratsgo.github.io/natural%20language%20processing/2017/03/22/lexicon/



* 언어학(linguistics, philology)

    음운론(Phonology) - 말소리

    형태론(Morphology) - , 단어와 형태소

    통사론(syntax) - 문법

    의미론(Senmantics) - 맥락/담화



어휘분석(lexcical analysis) (낱말, 단어)

    - 품사 (POS, Part of speech) 결정

    - Named entity recognition - 고유명사 인식

    - 상호참조(co-reference)는 선행 단어/구를 현재 단어/구와 비교해 같은 개체인지를 결정

    - 의존관계 분석(basic dependencies) - 단어간의 의존관계



문장 분리(sentence splitting), 

단어 분리(tokenize), 

 

Morphological analysis (=Text Normaization)

    - 단어를 일반적인 형태로 변경

 

    - stemming : 단어의 축약형의 변경

        - stem=어간

            writ는 어형 writes, writing, written의 어간이다.

 

    - lemmatization : 품사의 기본형으로 변경

        lemma=단어의 기본형

 

Loved => Lov(stemming) ,    Love(lemmatization)




포스태깅 (POS tagging) - 품사 인식



//-------------------------

스테밍 알고리즘(stemming algorithms , stemmers)

 

Porter : 기본

 

Snowball(Porter2) - porter 알고리즘을 개선

https://snowballstem.org/



Lancaster (Paice-Husk) - porter보다 aggressive



//-------------------------------------

불용어(stopword)

    - 분석할때 의미가 없는 단어들

 

   - Stop Word English List

https://countwordsfree.com/stopwords

 

    - 한글 불용어(stopword)

https://wikidocs.net/22530

https://bab2min.tistory.com/544

 

반응형
Posted by codens