데이터 클라우드 기업 스노우플레이크는 인공지능(AI) 기반 애플리케이션 생성 지원 툴인 스노우플레이크 코텍스 AI에서 라마 3.1에 대한 지원을 시작한다고 9일 밝혔다.
최기영 스노우플레이크 한국 지사장 이날 열린 '스노우플레이크 월드투어 서울' 기자간담회에서 이처럼 밝히고 "(스노우플레이크 서비스는) 거대언어모델(LLM) 중에서 라마를 포함해 엔터프라이즈에서 필요로 하는 AI로 특화돼 있다"라고 설명했다.
이번 서비스를 통해 스노우플레이크는 메타에서 가장 큰 규모를 자랑하는 오픈소스 LLM인 라마 3.1 405B를 제공하게 된다. 스노우플레이크는 실시간의 고처리량 추론을 구현하고 자연어 처리 및 생성 앱을 증진하는 추론 시스템을 개발하고 오픈 소싱하게 된다.
스노우플레이크의 AI 리서치팀은 추론과 미세조정(파인튜닝)에 대해 라마 3.1 405B를 최적화해 서비스한다. 또 기존 오픈 소스 솔루션에 비해 엔드투엔드(end-to-end) 지연시간은 최대 3분의 1로 줄고 처리량은 1.4배 높아진 실시간 추론을 구현한다.
아울러 코텍스 AI에서 하나의 그래픽처리장치(GPU) 노드만을 사용해 거대 모델을 미세 조정할 수 있어 개발자와 사용자 모두에게 비용과 복잡성을 완화한다.
이번 협력을 통해 스노우플레이크를 사용하는 고객은 AI 데이터 클라우드에서 메타의 최신 모델에 원활하게 액세스하고 파인튜닝해 배포할 수 있다. 스노우플레이크 측은 사용이 간편하고 효율성 및 신뢰도 높은 방법은 물론, 기본적으로 내장된 신뢰도 및 안전성에 대한 포괄적인 접근방식을 제공한다고 전했다.
스노우플레이크 AI 리서치팀은 라마 3.1 405B의 출시와 함께 초거대 LLM 추론 및 파인튜닝 시스템 최적화 스택을 오픈 소스화하고 있다. 이를 통해 수천억개의 매개변수 모델에 대한 오픈 소스 추론 및 파인튜닝 시스템에 필요한 솔루션을 구축하고 있다는 평가다.
스노우플레이크의 LLM 추론 및 파인튜닝 시스템 최적화 스택은 처리량 향상 문제 등을 극복하고 있다. 고급 병렬화 기술과 메모리 최적화를 통해 복잡하고 고비용의 인프라가 없어도 효율적인 AI 처리가 가능하도록 했다. 라마 3.1 405B의 경우 스노우플레이크의 시스템 스택은 단일 GPU 노드 하나로도 실시간의 고처리량 성능을 발휘하도록 지원한다.
이는 데이터 과학자들이 전보다 적은 개수의 GPU 상에서 복합·정밀 기술을 사용해 라마 3.1 405B를 파인튜닝할 수 있으므로 대규모 GPU 클러스터에 대한 필요성이 사라지게 된다. 엔터프라이즈급 생성형 AI 앱을 보다 편리하고 효율적이며 안전하게 채택하고 배포할 수 있도록 돕는다.
스노우플레이크의 AI 리서치팀은 기업들이 이러한 활용 사례를 코텍스 AI에서 쉽게 적용할 수 있도록 파인튜닝에 최적화된 인프라도 개발했다.
최 지사장은 "국내 대표 10대 기업 중 80% 정도를 고객으로 확보했고 스노우플레이크를 활용하기 시작했다"라면서 "앞으로 사용하기 쉽고 효과적인 서비스를 제공한다는 가치를 지켜가면서 협업을 계속해 나갈 것"이라고 했다.
한편, 스노우플레이크가 10일 삼성동 코엑스 컨벤션센터에서 '스노우플레이크 월드 투어 서울'을 개최한다. 이번 행사에서는 완전 관리형 스노우플레이크 코텍스와 오픈소스로 공개한 '폴라리스 카탈로그', '스노우플레이크 코파일럿', 기업용 LLM 등 업그레이드된 AI 기술 내용을 공개할 예정이다.
이정윤 기자 [email protected] <ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제 무단전재 배포금지> |