Search
Duplicate

2-5 단어 분류하기: 품사 태깅

자연어처리 과정에서 문서에 레이블을 할당하는 것과 같은 개념으로 문장 속 단어들을 어떤 특정한 기준에 따라 분류하는 작업을 합니다. 단어를 분류하는 방식으로는 개체명 인식(Named Entity Recognition)과 품사 태깅(POS tagging)이 있습니다.

개체명 인식

개체명 인식은 단어가 사람인지, 조직인지, 시간을 표현하는지 등 단어의 유형에 따라 나누는 방식입니다. 다음 코드를 통해 The Indian Space Research Organisation or is the national space agency of India, headquartered in Bengaluru. It operates under Department of Space which is directly overseen by the Prime Minister of India while Chairman of ISRO acts as executive of DOS as well. 라는 문장 속 단어들을 개체명 인식을 통해 단어를 분류해봅시다.
import spacy #spaCy 사용 from spacy import displacy NER = spacy.load("en_core_web_sm") #NER는 개체명 인식 Named Entity Recognition의 약자 #raw_text는 우리가 다룰 문장 raw_text="The Indian Space Research Organisation or is the national space agency of India, headquartered in Bengaluru. It operates under Department of Space which is directly overseen by the Prime Minister of India while Chairman of ISRO acts as executive of DOS as well." text1= NER(raw_text) #문장 불러오기 for word in text1.ents: print(word.text,word.label_)
Python
복사
코드를 실행시키면 아래와 같이 결과가 출력됩니다. The Indian Space Research Organisation, the national space agency, Department of Space, ISRO, DOS는 조직(ORG), India, Bengaluru는 위치(GPE)로 분류되는 것을 볼 수 있습니다.
The Indian Space Research Organisation ORG the national space agency ORG India GPE Bengaluru GPE Department of Space ORG India GPE ISRO ORG DOS ORG
Python
복사
개체명 인식 기법은 인공지능 번역할 때 굉장히 유용합니다. 예를 들어 아이폰과 맥북을 만드는 Apple이라는 회사가 들어간 문장을 번역할 때 회사명이라는 것을 인식하여 ‘사과'로 직역하는 것이 아닌, ‘애플’로 번역할 수 있도록 해줍니다.

품사 태깅

품사 태깅은 단어들을 각각의 품사에 따라 분류하는 기법입니다. 다음 코드를 통해 Mary slapped the green witch. 라는 문장의 단어들을 품사 태깅해봅시다.
import spacy nlp = spacy.load('en') doc = nlp(u"Marry slapped the green witch") for token in doc: print('{} - {}'.format(token, token.pos_))
Python
복사
코드를 실행시키면 아래와 같이 결과가 출력됩니다. Mary는 고유 명사(PROPN), slapped는 동사(VERB), the는 한정사(DET), green은 형용사(ADJ), witch는 명사(NOUN), 마침표는 punctuation(PUNCT)로 분류가 된 것을 볼 수 있습니다.
Mary - PROPN slapped - VERB the - DET green - ADJ witch - NOUN . - PUNCT
Python
복사
품사 태깅 기법은 2-3 표제어와 어간 에서 언급했듯이 표제어 추출을 할 때 정확도 높은 결과를 도출해내는데 중요한 역할을 합니다.
이전 글 읽기