본문 바로가기

ML공부🖥️

파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter5.토큰화

  • 자연어처리(NLP) : 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미.
  • 토큰화 : 토큰으로 나누는 목적은 컴퓨터가 자연어를 이해할 수 있게 나누는 과정. 

  • 단어토큰화 : 자연어 처리 분야에서 핵심적인 전처리 잡업 중 하나로 텍스트 데이터를 의미있는 단위인 단어로 분리하는 작업. 
  • 글자토큰화 : 띄어쓰기뿐만 아니라 글자 단위로 문장을 나누는 방식으로, 비교적 작은 단어 사전을 구축할 수 있다는 장점이 있다. 
  • 형태소 토큰화 : 텍스트를 형태소 단위로 나누는 토큰화 방법. 언어의 문법과 구조를 고려해 단어를 분리하고 이를 의미 있는 단위로 분류하는 작업.
    • KoNLPy, NLTK, spaCy 라이브러리 활용 실습
  •