KoChatGPT

Affiliation

Commercial

Fine-tuning Method

RLHF

Note

- github, 강의 영상 - ColossalChat 코드를 통한 RLHF 학습 코드 & 한국어 데이터 공개

데이터

- kochatgpt data (link) 1. 아래의 4가지 데이터에서 질문셋 167,577 수집 → 12000개 질문 랜덤 선택 . ChatbotData : 11824 문장 . AI허브_한국어 대화 : 49711 문장 . AI허브_일반상식 : 100268 문장 . KorQuad : 5774 문장 2. ChatGPT를 이용한 답변 생성 3. ChatGPT를 이용하여, 대화 데이터 생성 (ChatGPT가 사람vs.챗봇 대화를 둘 모두 만들도록 함) 4. RM을 위한 Ranking 데이터 : 10220개 . 동일한 prompt에 대해 “ChatGPT, GPT3.5 davinci-003, GPT3 ada-001” 생성 . ChatGPT > GPT3.5-davinci > GPT3-ada 순으로 ranking 자동 레이블링 . RM 모델 학습을 위한 데이터는 이중 두개씩을 묶어서, chosen & rejected 로 만듦 5. PPO dataset : 초기 12000개의 질문만을 활용.

모델 크기

새롭게 제공된 Resource

InstructData

출시일

2023-03