- docs, github, guideline, video
- CharacterAI의 유저들이 모여서 만든 챗봇 용 모델
- 공개된 모델 크기 : 350M ~ 6B
. 기반 모델 : OPT & ConvoGPT
- 학습 pipeline : ColossalAI
. 350M : 데이터의 7%도 사용하지 않고 수렴해버려서, 273 KB size로 학습 (6GB VRAM single GPU)
. 1.3B : 11.4M tokens over 5440 steps on a single 24GB GPu, 21 hours
. 2.7B : 48.5M tokens over ~5k steps on 4 NVIDIA A40s using DeepSpeed
. 6B : 48.5M tokens over ~5k steps on 4 NVIDIA A40s using DeepSpeed
- Serving : Gradio UI