파운데이션 모델

위키백과, 우리 모두의 백과사전.

파운데이션 모델(foundation model)은 광범위한 사용 사례에 적용할 수 있도록 광범위한 데이터에 대해 훈련된 기계 학습 또는 딥 러닝 모델이다.[1] 파운데이션 모델은 인공지능(AI)을 변화시켜 ChatGPT와 같은 탁월한 생성형 AI 애플리케이션을 지원한다. 스탠포드 인간 중심 인공 지능 연구소(HAI)의 파운데이션 모델 연구 센터(CRFM)가 이 용어를 만들고 대중화했다.[2]

파운데이션 모델은 다양한 사용 사례를 지원할 수 있는 범용 기술이다. 파운데이션 모델을 구축하는 것은 리소스 집약적인 경우가 많으며, 가장 비싼 모델의 경우 기본 데이터 및 필요한 컴퓨팅 비용을 지불하는 데 수억 달러가 소요된다.[3] 대조적으로, 특정 사용 사례에 맞게 기존 기반 모델을 조정하거나 직접 사용하는 것은 비용이 훨씬 저렴하다.

파운데이션 모델의 초기 예는 구글BERT[4]오픈AI의 "GPT-n" 시리즈와 같은 언어 모델(LM)이었다. 텍스트 외에도 이미지용 DALL-E 및 플라밍고,[5] 음악용 뮤직젠(MusicGen),[6] 로봇 제어용 RT-2[7] 등 다양한 양식에 걸쳐 기반 모델이 개발되었다. 파운데이션 모델은 AI 개발의 광범위한 변화를 구성한다. 파운데이션 모델은 천문학,[8] 방사선학,[9] 유전체학,[10] 음악,[11] 코딩,[12] 시계열 예측[13] 및 수학[14]을 위해 구축되고 있다.

각주[편집]

  1. Competition and Markets Authority (2023). AI Foundation Models: Initial Report. Available at: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf
  2. “Introducing the Center for Research on Foundation Models (CRFM)”. 《Stanford HAI》. 2021년 8월 18일. 2022년 6월 11일에 확인함. 
  3. Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault, “The AI Index 2023 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2023.
  4. Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). “A Primer in BERTology: What we know about how BERT works”. arXiv:2002.12327 [cs.CL]. 
  5. 《Tackling multiple tasks with a single visual language model》, 2022년 4월 28일, 2022년 6월 13일에 확인함 
  6. Copet, Jade; Kreuk, Felix; Gat, Itai; Remez, Tal; Kant, David; Synnaeve, Gabriel; Adi, Yossi; Défossez, Alexandre (2023년 11월 7일). “Simple and Controllable Music Generation”. arXiv:2306.05284 [cs.SD]. 
  7. “Speaking robot: Our new AI model translates vision and language into robotic actions”. 《Google》 (미국 영어). 2023년 7월 28일. 2023년 12월 11일에 확인함. 
  8. Nguyen, Tuan Dung; Ting, Yuan-Sen; Ciucă, Ioana; O'Neill, Charlie; Sun, Ze-Chang; Jabłońska, Maja; Kruk, Sandor; Perkowski, Ernest; Miller, Jack (2023년 9월 12일). “AstroLLaMA: Towards Specialized Foundation Models in Astronomy”. arXiv:2309.06126 [astro-ph.IM]. 
  9. Tu, Tao; Azizi, Shekoofeh; Driess, Danny; Schaekermann, Mike; Amin, Mohamed; Chang, Pi-Chuan; Carroll, Andrew; Lau, Chuck; Tanno, Ryutaro (2023년 7월 26일). “Towards Generalist Biomedical AI”. arXiv:2307.14334 [cs.CL]. 
  10. Zvyagin, Maxim; Brace, Alexander; Hippe, Kyle; Deng, Yuntian; Zhang, Bin; Bohorquez, Cindy Orozco; Clyde, Austin; Kale, Bharat; Perez-Rivera, Danilo (2022년 10월 11일). 《GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics》 (영어). bioRxiv 10.1101/2022.10.10.511571 |biorxiv= 값 확인 필요 (도움말). 
  11. Engineering, Spotify (2023년 10월 13일). “LLark: A Multimodal Foundation Model for Music”. 《Spotify Research》 (미국 영어). 2023년 12월 11일에 확인함. 
  12. Li, Raymond; Allal, Loubna Ben; Zi, Yangtian; Muennighoff, Niklas; Kocetkov, Denis; Mou, Chenghao; Marone, Marc; Akiki, Christopher; Li, Jia (2023년 5월 9일). “StarCoder: may the source be with you!”. arXiv:2305.06161 [cs.CL]. 
  13. Se, Ksenia; Spektor, Ian (2024년 4월 5일). “Revolutionizing Time Series Forecasting: Interview with TimeGPT's creators”. 《Turing Post》 (영어). 2024년 4월 11일에 확인함. 
  14. Azerbayev, Zhangir; Schoelkopf, Hailey; Paster, Keiran; Santos, Marco Dos; McAleer, Stephen; Jiang, Albert Q.; Deng, Jia; Biderman, Stella; Welleck, Sean (2023년 11월 30일). “Llemma: An Open Language Model For Mathematics”. arXiv:2310.10631 [cs.CL].