본문 바로가기

전체 글

(30)
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter7. 트랜스포머 트랜스포머 모델 기능 : 기존의 순환 신경망과 같은 순차적 방식이 아닌 병렬로 입력 시퀀스를 처리하는 기능. 인코더 : 예측되는 토큰의 양옆에 있는 토큰들을 참조하기 때문에 양방향 구조를 가진다.디코더 : 예측되는 토큰의 왼쪽에 있는 토큰들만 참조하기 때문에 단방향 구조를 가진다. 트랜스 포머 : 딥러닝 모델 중 하나로, 기계 번역, 챗봇, 음성 인식 등 다양한 자연어 처리 분야에서 많은 성과를 내는 모델. 어텐션 메커니즘만을 사용하여 시퀀스 임베딩을 표현.트랜스포머의 어텐션 메커니즘은 인코더와 디코더 간의 상호작용으로 입력 시퀀스의 중요한 부분에 초점을 맞추어 문맥을 이해하고 적절한 출력을 생성한다. 인코더는 입력 시퀀스를 임베딩하여 고차원 벡터로 변환하고, 디코더는 인코더의 출력을 입력으로 받아 출력..
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter6. 임베딩 텍스트 벡터화 : 텍스트를 숫자로 변환하는 과정. 원-핫 인코딩, 빈도 벡터화 등이 있다.워드 임베딩 : 벡터의 희소성 해결(Word2Vec, fastText). 단어를 고정된 길이의 실수 벡터로 표현하는 방법. 단어의 의미를 벡터 공간에 서 다른 단어와의 상대적 위치로 표현해 단어 간의 관계 추론. 동적 임베딩 : 워드 임베딩은 고정된 임베딩을 학습하기 때문에 다의어나 문맥 정보를 다루기 어렵다는 단점이 있어 인공 신경망을 통해 동적 임베딩 기법을 사용한다. 자기 회귀 언어 모델 : 입력된 문장들의 조건부 확률을 이용해 다음에 올 단어를 예측한다. 이전에 등장한 모든 토큰의 정보를 활용해 입력된 문장의 문맥 정보를 파악하고 다음 토큰을 예측. 그러므로 언어 모델은 문장 전체의 확률을 계산하고, 이를 이..
파이토치 트랜스포머를 활용한 자연어처리와 컴퓨터비전 심층학습 chapter5.토큰화 자연어처리(NLP) : 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미.토큰화 : 토큰으로 나누는 목적은 컴퓨터가 자연어를 이해할 수 있게 나누는 과정. 단어토큰화 : 자연어 처리 분야에서 핵심적인 전처리 잡업 중 하나로 텍스트 데이터를 의미있는 단위인 단어로 분리하는 작업. 글자토큰화 : 띄어쓰기뿐만 아니라 글자 단위로 문장을 나누는 방식으로, 비교적 작은 단어 사전을 구축할 수 있다는 장점이 있다. 형태소 토큰화 : 텍스트를 형태소 단위로 나누는 토큰화 방법. 언어의 문법과 구조를 고려해 단어를 분리하고 이를 의미 있는 단위로 분류하는 작업.KoNLPy, NLTK, spaCy 라이브러리 활용 실습
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter4 과대적합과 과소적합성능저하 : 과대적합과 과소적합은 기본적으로 모델의 성능을 저하시킨다. 모델 선택 실패 : 과대적합의 경우 모델의 구조가 너무 복잡해 훈련 데이터에만 의존하게 되어 성능이 저하된다. 반대로 과소적합의 경우 모델의 구조가 너무 단순해 데이터의 특징을 제대로 학습하지 못한 경우로 볼 수 있다. 편향 - 분산 트레이드오프 : 우수한 성능을 보이려면 낮은 편향과 낮은 분산을 가져야한다. 분산이 높으면 추정치에 대한 변동 폭이 커지며, 데이터가 갖고 있는 노이즈까지 학습 과정에 포함돼 과대적합 문제를 발생시킨다.과대적합과 과소적합 문제 해결데이터수집 : 과대적합과 과소적합 모두 모델이 훈련 데이터를 제대로 학습하지 못하는 경우다. 과댖거합은 훈련 데이터를 너무 적합하게 학습해 문제가 발생하고 과..
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter3. 파이토치 기초 텐서 : 넘파이 라이브러리의 ndarray 클래스와 유사한 구조로 배열이나 행렬과 유사한 자료 구조. 파이토치에서는 텐서를 사용하여 모델의 입출력뿐만 아니라 모델의 매개변수를 부호화하고 GPU를 활용해 연산을 가속화할 수 있다.탠서 생성torch.tensor() 또는 torch.Tensor()로 생성할 수 있다. 소문자인 torch.tensor()는 입력된 데이터를 복사해 텐서로 변환하는 함수. 즉, 데이터를 복사하기 때문에 값이 무조건 존재해야 하며 입력된 데이터의 형식에 가장 적합한 텐서 자료형으로 변환. torch.Tensor()는 텐서의 기본형으로 텐서 인스턴스를 생성하는 클래스. 인스턴스를 생성하기 때문에 값을 입력하지 않는 경우 비어 있는 텐서를 생성. 텐서 속성 : 형태, 자료형, 장치가 존..
파이토치 트랜스포머를 활용한 자연어 처리와 컴퓨터비전 심층학습 chapter1 지도 학습 : 훈련 데이터와 레이블의 관계를 알고리즘으로 학습시키는 방법. 입력 데이터와 출력 데이터로 구성. ex) g회귀분석, 분류회귀 분석 : 둘 이상의 변수 간의 관계를 파악함으로써 독립 변수인 X로부터 연속형 종속변수인 Y에 대한 모형의 적합도를 측정하는 통계적 분석 방법. 선형 회귀와 비선형 회귀로 나눌 수 있다.분류 : 새롱누 데이터를 대상으로 할당돼야 하는 카테고리 또는 범주를 스스로 판단. 새롱누 데이터를 대상으로 참인지 거짓인지 분류할 수 있다면 이진분류, 세 개 이상의 카테고리로 나눠 분류할 수 있다면 다중분류비지도 학습 : 지도 학습과는 다르게 훈련 데이터에 레이블을 포함시키지 않고 알고리즘이 스스로 독립 변수 간의 관계를 학습하는 방법. 레이블이 존재하지 않기 때문에 특정한 규칙을..
혼공 컴+운 chapter15. 파일 시스템 15-1. 파일과 디렉터리파일파일 : 하드 디스크나 SSD와 같은 보조기억장치에 저장된 관련 정보의 집합을 의미.모든 파일에는 이름과 파일을 실행하기 위한 정보, 파일관련 부가 정보가 있다. 부가정보를 속성 또는 메타데이터라고 한다. 파일 속성과 유형속성 이름의미유형운영체제가 인지하는 파일의 종류를 나타낸다.크기파일의 현재 크기와 허용 가능한 최대 크기를 나타낸다.보호어떤 사용자가 해당 파일을 읽고, 쓰고, 실행할 수 있는지를 나타낸다.생성 날짜파일이 생성된 날짜를 나타낸다.마지막 접근 날짜파일에 마지막으로 접근한 날짜를 나타낸다.마지막 수정 날짜파일이 마지막으로 수정된 날짜를 나타낸다.생성자파일을 생성한 사용자를 나타낸다.소유자파일을 소유한 사용자를 나타낸다.위치파일의 보조기억장치상의 현재 위치를 나타..
혼공 컴+운 chapter14. 가상메모리 14-1. 연속 메모리 할당스와핑메모리에 적대된 프로세스 중에서는 현재 실행되지 않는 프로세스가 있을 수 있다. 이러한 프로세스들을 임시로 보조기억 장치 일부 영역으로 쫓아내고, 그렇게 해서 생긴 메모리상의 빈 공간에 또 다른 프로세스를 적재하여 실행하는 방식.스왑영역 : 프로세스들이 쫓겨나는 보조기억장치의 일부 영역. 스왑 아웃 : 현재 실행되지 않는 프로세스가 메모리에서 스왑 영역으로 옮겨지는 것. 스왑 인 : 스왑 영역에 있던 프로세스가 다시 메모리로 옮겨오는 것메모리 할당최초 적합 : 운영체제가 메모리 내의 빈 공간을 순서대로 검색하다가 적재할 수 있는 공간을 발견하면 그 공간에 프로세스를 배치하는 방식.최적 적합 : 운영체제가 빈 공간을 모두 검색해 본 후, 프로세스가 적재될 수 있는 공간 중 ..