- github, 강의 영상
- ColossalChat 코드를 통한 RLHF 학습 코드 & 한국어 데이터 공개
데이터
- kochatgpt data (link)
1. 아래의 4가지 데이터에서 질문셋 167,577 수집 → 12000개 질문 랜덤 선택
. ChatbotData : 11824 문장
. AI허브_한국어 대화 : 49711 문장
. AI허브_일반상식 : 100268 문장
. KorQuad : 5774 문장
2. ChatGPT를 이용한 답변 생성
3. ChatGPT를 이용하여, 대화 데이터 생성 (ChatGPT가 사람vs.챗봇 대화를 둘 모두 만들도록 함)
4. RM을 위한 Ranking 데이터 : 10220개
. 동일한 prompt에 대해 “ChatGPT, GPT3.5 davinci-003, GPT3 ada-001” 생성
. ChatGPT > GPT3.5-davinci > GPT3-ada 순으로 ranking 자동 레이블링
. RM 모델 학습을 위한 데이터는 이중 두개씩을 묶어서, chosen & rejected 로 만듦
5. PPO dataset : 초기 12000개의 질문만을 활용.