- 자연어처리(NLP) : 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미.
- 토큰화 : 토큰으로 나누는 목적은 컴퓨터가 자연어를 이해할 수 있게 나누는 과정.
- 단어토큰화 : 자연어 처리 분야에서 핵심적인 전처리 잡업 중 하나로 텍스트 데이터를 의미있는 단위인 단어로 분리하는 작업.
- 글자토큰화 : 띄어쓰기뿐만 아니라 글자 단위로 문장을 나누는 방식으로, 비교적 작은 단어 사전을 구축할 수 있다는 장점이 있다.
- 형태소 토큰화 : 텍스트를 형태소 단위로 나누는 토큰화 방법. 언어의 문법과 구조를 고려해 단어를 분리하고 이를 의미 있는 단위로 분류하는 작업.
- KoNLPy, NLTK, spaCy 라이브러리 활용 실습
'ML공부🖥️' 카테고리의 다른 글
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter7. 트랜스포머 (0) | 2025.03.26 |
---|---|
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter6. 임베딩 (0) | 2025.03.26 |
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter4 (0) | 2025.03.18 |
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter3. 파이토치 기초 (0) | 2025.03.17 |
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter1 (0) | 2025.03.16 |