일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 백엔드
- Naver boostcamp
- 백준
- AI Tech
- 웹 프로그래밍
- 프로그래밍
- 서블릿
- Customer service 구현
- 부스트캠프
- 레벨2
- 4기
- 프로그래머스
- 풀스택
- P Stage
- 구현
- sts
- 대회
- 2021 Dev-matching 웹 백엔드 개발자
- 파이썬
- BOJ
- 웹
- 서버
- QNA 봇
- Naver boostcourse
- cs50
- Django
- 네이버
- AI Tech 4기
- boostcourse
- 장고
- Today
- Total
목록P Stage (3)
daniel7481의 개발일지
1. 프로젝트 개요 위키피디아 원시 말뭉치를 활용하여 관계 추출 태스크에 쓰이는 주석 코퍼스 제작 Relation set의 구성 및 정의, 가이드라인 작성, 파일럿 및 메인 어노테이션, 그리고 간단한 모델 Fine-tuning의 과정을 통해 실제 데이터 제작의 workflow 경험 정밀한 가이드라인 제작의 중요성과 inter-annotator agreement(IAA)의 개념 체득 2022.12.07(수) ~ 2022.12.16(금) 13:00 2. 팀 구성 및 역할 김건우_T4017 IAA 계산, 모델 튜닝, RE 데이터 태깅 백단익_T4098 Relation Map 작성, 가이드라인 FAQ 작성, RE 데이터 태깅 손용찬_T4108 tagtog 플랫폼 문장 업로드, RE 데이터 태깅 이재덕_T4163..
문제 정의 문장 안에서 Entity(단어)가 2개 주어졌을 때, 문장 내에 두 단어의 관계를 예측하는 task다. ex) 이번 대회에서 EDA를 맡게 되었고, 가장 먼저 데이터를 하나하나씩 뜯어보면서 우리가 풀어야할 문제를 정의하려고 하였고, 데이터 시각화를 통해 여러 가지 인사이트를 발굴했다. EDA 데이터셋은 KLUE Datset을 사용했으며, 칼럼은 id, Sentence, subject_entity, object_entity, label, source로 나뉜다. id: 인덱스다 Sentence: Entity가 포함된 문장들이다. subject_entity: Entity 간의 관계를 파악할 때 주어가 되는 단어다. 예로 들어 label이per:children이라면 subject_entity의 typ..
문장 간 유사도 측정(STS) 문장 두 개가 주어지면 문장 간의 유사도를 0~5까지의 실수로 label한 값을 예측하는 대회였다. 평가지표로는 Pearson 상관계수가 주어졌고, label과 2.5 이하면 0, 이상이면 1인 binary 값이 주어졌다. 데이터에 대한 설명은 다음과 같다 총 데이터 개수 : 10,974 문장 쌍 Train 데이터 개수: 9,324 Test 데이서 개수: 1,100 Dev 데이터 개수: 550 Label 점수: 0 ~ 5사이의 실수 5점 : 두 문장의 핵심 내용이 동일하며, 부가적인 내용들도 동일함 4점 : 두 문장의 핵심 내용이 동등하며, 부가적인 내용에서는 미미한 차이가 있음 3점 : 두 문장의 핵심 내용은 대략적으로 동등하지만, 부가적인 내용에 무시하기 어려운 차이가 ..