•
원문 Paper : https://arxiv.org/pdf/2304.06035.pdf
소개
•
스타트업이나 학계, 그리고 AI 관련 종사자들 모두 ChatGPT 시대에 들어서면서, 멘붕을 겪고 있는데요.
•
학계 분위기가 얼마나 뒤숭숭한지 알려주는 논문이 나왔습니다.
•
“AGI like ChatGPT”의 시대에서 우울한 AI 학계가 살아남기 위한 전략 이 주제입니다.
•
개인적으로도 많은 비지니스 & 커리어 고민을 하고 있지만, 이러한 내용들은 크게 공감가는 부분들이 있습니다.
◦
AI 스타트업의 일원으로서의 공감
◦
AI Research Engineer로서의 공감
◦
새삼 느껴지는 “Deep Learning이 대학원 시절에 처음 등장했을 때, 교수님들의 반응 & 현재에 이르러 엄청난 성장을 이룬 그 영향력”
저자들이 글을 쓰는 목적
1.
AI junior들을 위한 career path
•
AI에서의 커리어가 좋은 생각인가?
•
학계? 빅테크 기업? 스타트업?
•
시스템에 순응할 것인가? 반항자가 될 것인가? (대게 커리어 시작단계거나, 고용보장 단계일 때, 반항자가 되기에 쉬운 환경)
•
얼마나 숙련된 기술을 가지고 있든지 상관없이, 이미 진 싸움을 시작하는 것인가?
2.
공동의 대의를 찾길 바라는 소망을 담은 커뮤니티 형성
3.
학계가 살아남기 위한 방법으로 우리가 생각하는 전략 공유
4.
아이디어를 얻기 위한 대화의 시작점
글의 배경
•
ChatGPT 시대에 들어서면서, 방대한 계산 자원과 인적 자원이 없으면 도저히 AI 연구적으로 돌파구를 찾을 수 없는 시대
◦
예상 못한 거대모델의 성능 : 학계에선 neural net으론 할수 없을 것이라 예상했던 것들도 거대모델들이 해내어버림
•
더이상 학계는 글로벌 스케일에서 경쟁을 할 수 없는 상황
◦
부족한 자원 : 몇십개의 GPU 자원과 박사과정 학생들만으론 AI 진화 속도를 따라가는 것조차 어려워짐
◦
Bitter Pill (쓰라린 고통) : 거대모델과 함께, 학습 방법론과 아키텍쳐의 개선도 이루어졌지만, 이런 개선은 엄청난 양의 실험을 할 수 있는 자원이 뒷받침 될 때에만 유의미함.
Richard Sutton. The bitter lesson. Incomplete Ideas (blog), 13(1), 2019.
◦
벌어지는 기술 격차 : 매년, 학계와 거대 공룡 기업과의 경쟁력은 더욱 격차가 벌어지고 있음.
▪
특정 연구 주제에 대해서 좋은 아이디어를 가지고 있다면, OpenAI나 DeepMind가 이미 진행하고 있음.
▪
Walmart vs. 구멍가게의 대결
▪
심지어, 투자를 잘 받은 연구기업 조차 학계는 따라갈 수 없는 현실
•
우리는 연구는 공개되어야하며, 협동적으로 노력이 이루어져야하고, 이러한 노력이 인정받을 수 있길 원한다!!
1번. 포기해라!
1.
연구는 포기하지말고, 임팩트있는 결과 및 개선을 포기해라.
2.
세상에는 수많은 중간단계의 학회나 저널들이 많고, 마이너한 문제들과 기술적 디테일이 많다.
3.
European Commission (ERC) 이나 US National Science Foundation (USF) 과 같은 fund들이 원하는 연구를 해라
•
추천하는 사람 : 진급을 고려하지 않거나, 이미 이룬게 많은 사람.
2번. 그냥 규모가 큰 프로젝트에 도전!
•
하지만.. 아래와 같은 문제점들을 고려해야한다.
•
단점1 : 엄청난 비용
◦
최근 OpenAI 연구에서 Minecraft의 다이아몬드 곡갱이를 생성하기 위해 720 A100 GPUs 로 9일 동안 돌렸다. (모델 : Minecraft video input → 키보드 키입력 예측)
▪
Video pretraining (vpt): Learning to act by watching unlabeled online videos. Advances in Neural Information Processing Systems, 35:24639–24654, 2022.
◦
하나의 셋팅에 대해 실험을 돌리려면 몇십만달러가 필요하다.
◦
심지어 이런 실험들은 몇개월에서 몇년이 걸릴 수도 있다
▪
prototypes / PoC / Debugging / parameter tuning / failed starts
•
단점2 : 오로지 1저자는 한명 뿐..
◦
몇년에 걸처 대형 프로젝트를 진행한다고 쳐도, 오직 한명만 1저자이고, 졸업해야하는 박사과정들은 너무 많다.
◦
거기다 몇명은 재미없는 Software engineering job만 지속적으로 해줘야 프로젝트가 성공적으로 끝날 수 있다. (이들은 AI research를 한 것으로 인정도 못 받을 수 있다)
3번. 규모를 줄이는 방안
•
이론적으로 접근하여, 새로운 접근법으로 Toy 문제를 푸는 것
◦
•
단점 : 빅 테크에서는 같은 문제를 풀어도 실제 자동차의 navigation을 해버린다. 즉, 임팩트가 강하지 않다.
4번. 공개된 모델&코드를 재활용하라 (Reuse and Remaster)
•
AI 연구에서 달라진 문화는 모델과 코드의 공유가 기준이 되어버렸다는 것. → 이들을 이용해서 LLM을 fine-tuning 하거나 post-hoc analysis를 하여 특정 task들에 활용하는 것
•
단점 : 이제는.. 이것만으로는 좋은 성능이 보장되지 않는다.
5번. 큰 모델을 분석하라!
•
공개된 LLM을 분석하는 것 (시각적 분석, 개념적인 장치, 창의적인 방식을 활용한 분석)
◦
과학적인 진보에 도움을 충분히 줄 수 있다.
◦
▪
research에서 “memorization / term frequency / gender bias” 등을 분석할 수 있도록 공개하는 것이 목적
▪
Models : 16개 LLMs (orginal & deduped) 와 154개 checkpoints를 재현가능하도록 공개
◦
6번. 강화학습 (RL)! & No Data!
•
강화학습은 아래와 같은 과정을 건너뛸 수 있다
◦
이용가능한 데이터 만들기, 데이터 분석, 저장, 핸들링
•
강화학습은 매우 계산량이 많이 들며, Reward Function 설계는 사실상 아트의 경지가 필요하기에 실용적인 경험이 필요하다.
◦
즉, 매우 다양한 reward function에 대해 다양한 실험을 만들 수 있음.
•
단점 : 결국 이 접근법도 엄청난 계산 리소스가 필요로 함.
7번. 작은 모델! (Edge AI 분야)
•
많은 환경에서 작은 모델들이 필요하다. (게임, IoT, 자율주행 등)
•
Explainable AI : 작은 모델의 경우 내부에 어떻게 동작을 하는지 분석하기 용이하다.
•
단점 : 작은 모델이 할 수 있는 성능은 제한적이다.
8번. 특별한 분야나 도메인을 노려라.
•
새로운 분야 혹은 도메인에 몇몇 연구자들이 시도하여 큰 성과를 달성한 예시들은 매우 다양하며, 상대적으로 매우 안전한 전략이다.
◦
예를 들면, 저자들은 게임 산업에 AI 도입을 위해 힘을 쏟는 빅테크 기업들이 상대적으로 적기 때문에, 게임 산업 AI에 초점을 맞추고 있다.
•
그 분야의 커뮤니티를 직접 만들고, 이끌 수 있다.
•
단점 : 상대적으로 관심이 적은 분야들에 대한 연구들은 일반적으로 영향력이 적기에 큰 학회나 커뮤니티에서 취급하지 않는다.
9번. 현재, 관심을 덜 받는 문제들을 풀어라
•
HIGH RISK, HIGH RETURN : 미래에는 중요해질 것 같으나, 현재는 그렇지 않은 문제들을 선택하라.
◦
예) 15년 전에는 “Procedural content generation for games” 가 niche topic (기회가 있는 주제) 였고, 저자들은 이를 커뮤니티에 소개하는데 힘을 쏟았음. 결과적으로, 현재는 게임 산업 뿐만 아니라 일반적인 강화학습 (RL) 분야에서 매우 중요한 분야가 된 상태.
•
AI 분야와 상관없는 사람들에게 AI가 적용되지 않은 분야과 문제들을 물어보고, 이 중 미래에 사람들이 관심을 쏟을만한 것들을 선택하여 깊게 파고들어라.
10번. 말이 안되는 것들을 시도하라
•
이론이나 실험적으로 명백하지 않은 것들을 시도하라.
◦
빅 테크들은 동작할만한 것들을 시도하기 마련이다.
◦
학계에서는 실패가 성공만큼이나 유익하고 가치있는 것이며, 이에 걸린 리스크가 매우 적은 편이다.
◦
많은 중요한 발견과 아이디어들이 잘못된 것들을 시도하는 것으로부터 나왔다.
•
이런 가장 큰 예시가 Neural Network와 Deep Learning 이다.
◦
이를 시도하면 안되는 이론적인 이유들이 많았으며 실제로 많은 Machine Learning 학자들이 Deep Learning을 거부했지만, 고집스럽게 시도한 끝에 Deep Learning의 성공에 도달했다.
11번. 사회적으로 좋지 않은 시각으로 바라볼 수 있는 것을 시도하라!
•
사회적 평판이 기업에겐 매우 중요하기에, 큰 기업들은 윤리적이지 않은 것들을 시도하는 것을 꺼려한다.
◦
그렇기에 빅테크 기업들은 이러한 것을 직접하지 않고, 이런 일을 하는 스타트업에 투자를 한다.
•
법과 너의 인격에 제한될 뿐, 그 외의 미친 것들을 시도하라. (규범과 동떨어진 곳에 기회가 있을 수 있다.)
◦
예) 동성애자를 성적으로 표현하는 공상과학 이야기를 정치적으로 풍자하는 언어 모델
◦
예) 문화적 합의와는 동떨어진 “성적인 이야기”, “무례함”, “종교”, “자본주의 vs. 공산주의 이데올리기”, “법과 질서”, “정의”, “공평성”, “복지”, “대표성”, “역사”, “복제”, “폭력” 등등을 지향
•
니가 할 수 없을만한 것들을 시도할 수 없다면, 하지 않을만한 것이라도 시도해라.
•
추천하는 사람 : 이제 시작하는 사람이거나 이미 이룬게 많은 사람. (잃을게 없는 사람)
12번. 창업!
•
이 시대에는 점차적으로 AI 사이언티스트들이 그들의 아이디어로부터 회사를 차리고 AI 연구를 기반으로 상업적 상품과 서비스를 만들 것이다.
◦
•
실제 세상의 데이터를 얻을 수 있으며, 상업적인 환경에서 너의 AI 알고리즘을 테스트할 수 있고, 사람과 계산 자원을 늘릴 수 있는 기회를 얻게 될 수 있다.
•
단점1 : 모든 AI 연구 아이디어가 상업적인 가치가 있는 것이 아니다.
◦
학계에서는 인정받을 수 있으나, 상업적으로는 아닐 수 있다.
•
단점2 : 연구에서 얻은 좋은 결과를 비지니스에 적용하기까지는 매우 오랜 시간이 걸릴 수 있다.
◦
주어진 시간이 짧기에, 대부분의 스타트업은 연구보다는 개발에 집중하고, 시장의 반응에 더 집중해야한다.
•
단점3 : 투자 유치에 성공하더라도, 무제한의 계산 자원을 얻을 수 있다는 의미는 아니다.
◦
Seed 자금은 보통 몇십억원 이내이며, OpenAI-level의 자원을 운용할 수 없다. (너의 직원 월급은 누가 주나)
•
단점4 : 학계에 있는 연구자들은 이런 모험을 즐기지 않는다.
◦
학계에 있는 연구자들은 학계 커리어를 더 중요시 여긴다. (높은 봉급이나 회사의 수익보다는 학계 환경의 안정성을 더 중요시 함)
13번. 산학 협업!
•
1번부터 12번까지 모든 옵션이 너에게 어울리지 않다고 생각하지만, 어쨌든 큰 모델을 통해서 혁신하는데 참여하고 싶다면, 그런 환경을 소유한 자들과 협업해라.
◦
OpenAI와 같은 선도 기업들의 주변에 있는 대학들은 지역 사회의 이익을 얻을 수 있으며, 대면 미팅을 통해 좀 더 쉽게 협업을 성사시킬 수 있다.
◦
연구 방문, 현장 실습, 인턴제도를 통해 원격으로도 협업을 성사시킬 수도 있다.
•
훌륭한 AI 연구자들을 학계에서 붙잡아두는 것이 매우 중요하다.
•
단점1 : 결과가 외부에 공개되지 않을 수 있다.
•
단점2 : AI 산업 쪽에 소속되어 일하는 것을 원치 않을 수 있다.
14번. 선도 기업들이 학계를 돕겠는가? & 대학들의 대처는?
•
학계의 AI 연구자들이 오픈 소스 모델, 코드, 시스템을 만드는 것을 장려하고 도와주는 빅테크 기업이 있어서, 정기적으로 그들의 유용한 모델을 공개해 줄 수 있다.
◦
안해주면 매우 유감이지만..
•
빅테크 기업이 인턴쉽, 산학협력, 연구보조금 지급 등을 통해 도와줄 수 있지만, 이제는 학계가 먼저 협업을 제안할 수도 있을 것이다.
◦
대학들이 서로 파트너쉽을 맺어서, 먼저 제안하고 산학협업을 이룰 수 있다.
•
대학들은 이제 안전한 연구만을 바라는 자금 구조에서, 연구자들이 “High Risk, High Return”을 바라볼 수 있도록 자금 구조를 변경해야 한다.
◦
현재의 트랜드를 따라서, 비현실적인 연구에도 과감히 투자할 수 있어야 한다.