일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- AI Tech 4기
- 파이썬
- 장고
- cs50
- 서블릿
- 네이버
- 2021 Dev-matching 웹 백엔드 개발자
- 웹 프로그래밍
- Customer service 구현
- 대회
- 프로그래머스
- QNA 봇
- 풀스택
- 구현
- Naver boostcourse
- P Stage
- boostcourse
- 웹
- 레벨2
- 프로그래밍
- 부스트캠프
- 백준
- 서버
- 백엔드
- Naver boostcamp
- BOJ
- AI Tech
- Django
- 4기
- sts
- Today
- Total
daniel7481의 개발일지
20221005 3주차 수요일 회고 본문
피어세션
오늘은 Transformer와 Generative Model 부분을 공부했는데, 내용이 어려워서 이해가 안되는 부분이 많았다. 그래서 여러 가지 질문을 하게 되었다.
Q. encoder를 word embedding을 담당하는 module이라고 생각해도 될까요? Token은 문장에서 단어를 나누는 기준으로 알고 있는데, tokenizer도 encoder의 한 종류인가요?
여기서 word embedding과 encoder를 혼동하였는데, 둘은 별개의 개념이다. encoder에는 이미 word embedding 된 벡터 값이 들어가는 것으로, Tokenizer은 word embedding의 일부이다. Encoder는 embedding된 벡터 간의 관계를 학습하는 장치라고 이해하였다.
공부 회고
Transformer에 대한 내용은 너무나 많아 나중에 따로 정리를 해야겠다. 단순히 정리를 하자면 Transformer는 encoder와 decoder로 나누어져 있어서, 원래 사용된 RNN의 개념을 도입하지 않은 모델이다. Embedding 된 단어 벡터들을 입력으로 받고, Self attention layer를 지나게 되는데, 여기서 attention은 쉽게 얘기하면 각 단어들이 어느 단어에 attention을 줘야하는지를 계산하는 과정이라고 이해하였다. Self attention layer에는 key, query, value 가중치와 곱해주어서 벡터들을 만들고, , query와 key 벡터를 내적을 해준 후 나온 값을 소프트맥스를 취해준 확률과 value 벡터를 곱해서 모든 단어들에 대한 value 벡터를 구하게 되면 다 더해줌으로써 한 단어에 대한 attention layer를 거친 벡터 z를 만들게 된다. 말로만 설명하려고 하니 굉장히 복잡한 것 같다. 나중에 한 포스트 자체를 transformer에 대한 내용으로 정리할 예정이다.
'AI Tech 4기 > Level1' 카테고리의 다른 글
20221007 3주차 금요일 (1) | 2022.10.07 |
---|---|
20221006 3주차 목요일 (3) | 2022.10.06 |
20221004 3주차 화요일 회고 (1) | 2022.10.04 |
20220930 2주차 금요일 회고 (1) | 2022.09.30 |
20220929 2주차 목요일 회고 (1) | 2022.09.29 |