본문 바로가기

허깅페이스와 메이저 놀이터 월드를 통해 본 오픈소스 메이저 놀이터 생태계

이지현 IT전문기자(j.lee.reporter@gm메이저 놀이터l.com)

메이저 놀이터 기술 발전이 가속화됨에 따라 오픈소스 생태계의 비중도 점차 커지고 있다. 최근에는 오픈소스 메이저 놀이터의 현황을 분석한 다양한 자료들도 속속 공개되고 있으며, 특히 허깅페이스와 메이저 놀이터 월드의 분석은 전 세계 오픈소스 메이저 놀이터의 분포와 활용 현황을 다각도로 조명하고 있다.

허깅페이스로 보는 오픈소스 메이저 놀이터의 성장

메이저 놀이터 개발자와 연구자들이 가장 활발하게 이용하는 플랫폼 중 하나인 허깅페이스는 2024년 ‘오픈소스 메이저 놀이터 연간 결산(Open-source 메이저 놀이터: Year in Review)1)’을 통해 전 세계 오픈소스 메이저 놀이터 트렌드를 시각화해 발표했다. 이 자료는 최근 2년간의 흐름을 종합적으로 정리했으며, 글로벌 개발자 커뮤니티의 방향성과 기술 진화의 흐름을 한눈에 파악할 수 있도록 구성된 것이 특징이다.

허깅페이스에서 오픈소스 메이저 놀이터 기술의 트렌드를 확인할 수 있는 대표적인 지표는 ‘좋아요 수’와 ‘다운로드 수’다. 2022년만 해도 ‘좋아요 수’가 많은 프로젝트는 스테이블 디퓨전(Stable Diffusion), 블룸(BLOOM) 등 스타트업이나 오픈소스 진영이 주도한 프로젝트였다. 그러나 2024년에는 메타의 라마(LLaMA), 구글의 젬마(Gemma), 마이크로소프트의 파이(Phi) 모델이 가장 많은 ‘좋아요’ 수를 받았다. 빅테크 기업들의 오픈소스 모델이 업계의 핵심 관심사로 떠올랐다는 의미다.

좋아요 수 기준으로 보는 인기 오픈소스 메이저 놀이터 프로젝트

[그림 1] 좋아요 수 기준으로 보는 인기 오픈소스 메이저 놀이터 프로젝트

빅테크 기업의 영향력이 높아지는 것은 사실이지만 그럼에도 여전히 오픈소스 메이저 놀이터 생태계는 다양한 조직이 함께 참여하고 있다. 허깅페이스가 집계한 ‘좋아요 수 기준 주간 인기 모델’ 시각화 자료에 따르면, 2023년부터 2024년 초까지 매주 새로운 모델들이 상위권에 등장했다. 급상승한 모델 중 상당수는 스타트업과 오픈소스 커뮤니티에서 나온 것인데, 유럽발 메이저 놀이터 기업들의 성장이 눈에 띈다.

프랑스의 미스트랄(Mistral)이 개발한 믹스트랄(Mixtral)은 고성능과 경량화를 동시에 추구한 희소 전문가 혼합(Sparse Mixture of Experts, SMoE) 아키텍처를 기반으로, 공개 직후 빠르게 커뮤니티의 지지를 얻으며 주목을 끌었다. 영국의 스테이빌리티 메이저 놀이터(Stability 메이저 놀이터)는 이미지, 비디오, 오디오 생성에 특화된 스테이블 디퓨전(Stable Diffusion), 스테이블 비디오 디퓨전(Stable Video Diffusion), 스테이블 오디오 오픈(Stable Audio Open) 등을 통해 기술 영역을 넓혀가고 있다. 독일의 생성형 메이저 놀이터 스타트업 블랙 포레스트 랩스(Black Forest Labs)는 스테이빌리티 메이저 놀이터의 핵심 연구진과 독일 학계 출신 인력이 모여 설립한 회사로, 오픈소스 이미지 생성 모델 플럭스(Flux)를 통해 주목받으며 업계의 관심을 모았다.

다운로드 수 기준으로 살펴보면, 2023년 가장 많이 다운로드된 모델은 중국 베이징에 위치한 비영리 메이저 놀이터 연구기관 BA메이저 놀이터(Beijing Academy of Artificial Intelligence)의 ‘bge-base-en-v1.5’였다. 2024년에는 알리바바 그룹의 ‘Qwen2.5-1.5B-Instruct’가 1위를 차지했다. 이 같은 결과는 중국이 오픈소스 메이저 놀이터 모델 개발 분야에서 이미 높은 기술력을 갖추고 있음을 시사한다. 실제로 허깅페이스는 메이저 놀이터·머신러닝 분야의 핵심 학회인 뉴립스(NeurIPS)에 등록된 논문 수를 근거로, 중국과 미국이 글로벌 메이저 놀이터 연구를 주도하고 있다고 분석했다.

메이저 놀이터 연구 및 개발의 근간이 되는 데이터셋은 어떨까? 허깅페이스는 2024년을 ‘데이터셋 붐(Dataset Boom)의 해’로 표현하며, 메이저 놀이터 분야별 데이터셋은 최근 몇 년 사이 폭발적으로 증가하고 있다고 분석했다. 특히 자연어처리(NLP) 분야의 성장세가 가장 두드러지며, 컴퓨터 비전, 오디오, 멀티모달뿐 아니라 강화학습과 로보틱스 분야에서도 빠른 증가세가 확인됐다.

메이저 놀이터 모델 활용을 둘러싼 라이선스 정책에도 변화의 흐름이 감지되고 있다. 허깅페이스에 등록된 모델 중 60% 이상이 MIT, 아파치 2.0 등 상업적 이용이 가능한 자유 라이선스를 채택하고 있다. 반면, 메타의 라마처럼 제한된 사용자에게만 조건부 상업적 사용을 허용하는 라이선스도 존재하며, 빅사이언스의 R메이저 놀이터L-M(Responsible 메이저 놀이터 License – Model)처럼 책임 있는 메이저 놀이터 개발을 위해 윤리적 가이드라인을 포함한 새로운 유형의 라이선스도 등장하고 있다. 기업과 커뮤니티가 각자의 전략과 가치에 따라 라이선스를 선택하고 설계하는 흐름이 한층 뚜렷해지고 있는 셈이다.

메이저 놀이터 월드를 통해 본 글로벌 오픈소스 메이저 놀이터 지형

메이저 놀이터의 발전은 기술 그 자체를 넘어 언어, 지역, 정책, 인프라 등 다양한 요인들과 긴밀하게 얽혀 움직이고 있다. 유럽정책연구센터(Centre for European Policy Studies, CEPS)가 운영하는 ‘메이저 놀이터 월드(메이저 놀이터 World)2)’는 국가별 메이저 놀이터 관련 데이터와 지리적 특성에 따른 메이저 놀이터 역량을 비교·분석할 수 있는 플랫폼이다.

1983년 브뤼셀에 설립된 CEPS는 유럽연합(EU) 정책을 연구하는 싱크탱크다. 공식 블로그 3)에 따르면, CEPS는 인공지능이 사회에 미치는 영향과 이에 대한 대중의 제한된 이해 사이의 간극을 해소하기 위해 메이저 놀이터 월드를 개발했다고 설명했다. 이 플랫폼은 2024년 Google.org의 지원으로 처음 구축되었으며, 전 세계 메이저 놀이터 개발 동향을 실시간으로 추적한 정보를 제공한다. 특히 메이저 놀이터 월드를 통해 메이저 놀이터 특허 현황, 투자 흐름, 각국의 규제 체계, 산업별 활용 사례 등 핵심 데이터를 확인할 수 있다.

메이저 놀이터 월드의 주요 분석 중 하나는 2025년 6월에 공개된 ‘오픈소스 메이저 놀이터의 언어 지형도(The Linguistic Landscape of Open Source 메이저 놀이터)4)’다. 허깅페이스에 등록된 180만 개 이상의 언어 모델을 분석한 이 보고서는 메이저 놀이터 연구와 개발에서 어떤 언어가 주로 사용되고 주목받고 있는지를 보여준다. 분석 결과, 영어 기반 모델이 압도적으로 많았으며, 그 뒤를 중국어, 프랑스어, 독일어, 스페인어가 이었다.

CEPS는 영어가 지배적인 위치를 차지하고 있음에도 불구하고, 다양한 언어를 포괄하려는 다국어 확장 흐름이 빠르게 가속화되고 있다고 분석했다. CEPS는 “전 세계 여러 언어를 포함하는 오픈소스 메이저 놀이터 모델의 확장은 메이저 놀이터 접근성 격차를 해소하는 데 핵심적인 요소”라며, “대표성이 낮은 언어를 사용하는 수백만 명의 사용자가 메이저 놀이터 도구에 접근하는 데 장벽을 경험할 수 있다. 언어적 포용성을 확대함으로써 메이저 놀이터에 대한 지식, 활용, 접근성이 모두 향상되고, 메이저 놀이터 자체가 보다 민주화될 수 있다”고 설명하며, 영어 외 언어의 메이저 놀이터 모델 개발 확대 필요성을 강조했다.

실제로 유럽에서는 ‘유로LLM(EuroLLM)’, 노르딕 루미(Nordic Lumi)’와 같은 프로젝트를 통해 EU 언어에 특화된 다국어 메이저 놀이터 시스템을 개발 중이다. 프랑스의 ‘오픈LLM 프랑스(OpenLLM France)’ 프로젝트는 프랑스어 처리에 특화된 데이터셋과 모델을 구축하며 언어 다양성 보존을 위한 노력을 이어가고 있다.

또한, ‘메이저 놀이터 월드 허브(메이저 놀이터 World Hubs)’라는 시각화 자료에서는 전 세계 주요 메이저 놀이터 연구 중심지를 도시 단위로 확인할 수 있다. 2025년 기준 전 세계 메이저 놀이터 과학 논문 출판 상위 100개 도시는 중국, 유럽, 미국 간에 비교적 균형 있게 분포되어 있다. 중국에서는 베이징과 상하이가, 유럽에서는 파리와 런던이, 미국에서는 보스턴과 워싱턴 D.C.가 대표적인 메이저 놀이터 연구 중심지로 꼽힌다. 이 외에도 시드니, 카이로, 상파울루 등 다양한 도시들이 글로벌 메이저 놀이터 허브로 빠르게 부상하고 있다.

‘메이저 놀이터 월드 인덱스(메이저 놀이터 World Index)’는 CEPS가 제공하는 대표적인 지표 중 하나로, 국가 및 도시별 메이저 놀이터 혁신 수준을 계량화한 종합 지수다. 이 지수는 메이저 놀이터 관련 특허, 투자, 연구 성과를 정규화해 순위를 산출한다. 베이징은 메이저 놀이터 연구 부문에서 압도적인 우위를 보이고 있으며, 서울은 메이저 놀이터 특허 출원 부문에서 세계 선두권에 올라 있다. 샌프란시스코는 메이저 놀이터 투자 부문에서 최상위권을 기록 중이다.

좋아요 수 기준으로 보는 인기 오픈소스 메이저 놀이터 프로젝트

[그림 2] 메이저 놀이터 월드 인덱스

오픈소스 메이저 놀이터 생태계와 한국 메이저 놀이터의 위치

이처럼 글로벌 오픈소스 메이저 놀이터 생태계가 기술 중심에서 개방성, 다양성, 협업 중심의 구조로 빠르게 확장되는 가운데, 한국은 여전히 그 중심에서 한 발짝 떨어진 위치에 머물러 있다. 허깅페이스의 2024년 연말 결산과 메이저 놀이터 월드의 언어·도시·국가별 메이저 놀이터 활동 지표를 종합적으로 살펴보면, 한국은 메이저 놀이터 연구 개발 측면에서는 일정한 성과를 보이고 있으나, 오픈소스 생태계 참여에서는 두드러진 존재감을 드러내지 못하고 있는 것이다.

가령 허깅페이스 허브에 등록된 데이터셋을 언어별로 시각화한 ‘바벨 인 더 머신(Babel in the Machine)’ 인포그래픽에 따르면, 오픈소스 메이저 놀이터 생태계는 여전히 영어 중심의 구조를 보이고 있다. 전체 데이터셋 중 영어가 차지하는 비중은 37.4%로, 2위인 프랑스어(4.1%)와는 압도적인 격차를 보인다. 스페인어(3%), 러시아어(2.52%), 독일어(2.42%) 등 주요 유럽 언어들이 뒤를 이었고, 중국어(3.89%), 일본어(2.27%), 한국어(1.81%) 등의 아시아 언어는 상대적으로 낮은 비중을 나타냈다. 이 시각화는 오픈소스 메이저 놀이터 개발이 특정 언어권에 집중되는 경향을 단적으로 보여주는 동시에, 다국어 데이터 구축의 필요성과 언어 다양성 확보가 여전히 중요한 과제로 남아 있음을 드러낸다.

여기에 허깅페이스가 제공한 ‘메이저 놀이터 모델과 데이터셋에 사용된 언어 분포 시각화(Mapping 메이저 놀이터’s Languages of Models & Datasets)’를 보아도, 언어별로 구축된 메이저 놀이터 모델과 데이터셋의 분포에는 뚜렷한 편차가 존재함을 확인할 수 있다. 영어가 압도적으로 많은 수(모델 12만 272개, 데이터셋 1만 8,890개)를 기록한 가운데, 프랑스어(모델 7,538개, 데이터셋 2,073개), 중국어(모델 7,707개, 데이터셋 1,966개), 스페인어(모델 6,677개, 데이터셋 1,516개), 러시아어, 독일어 등이 뒤를 이었다. 한국어는 모델 5,280개, 데이터셋 917개로 중상위권에 해당하지만, 일본어(모델 5,504개, 데이터셋 1,147개)보다 낮은 수치를 보였다. 이 자료는 오픈소스 메이저 놀이터 리소스가 특정 언어에 집중되는 경향을 보여주는 동시에, 한국어 기반 모델 개발과 데이터셋 구축의 양적 확대가 여전히 필요한 상황임을 보여준다.

이처럼 언어별 편차가 뚜렷한 오픈소스 메이저 놀이터 생태계에서 비영어권 국가들이 보다 안정적으로 참여하기 위해서는 자국어 기반 데이터셋 구축과 언어 모델 개발에 대한 꾸준한 관심과 노력이 요구된다. 한국의 경우, 고품질 한국어 데이터셋의 부족은 국내 사용자 환경에 정밀하게 최적화된 메이저 놀이터 서비스를 구현하는 데 일정한 한계로 작용할 수 있으며, 그 결과 한국어가 글로벌 연구나 개발 과정에서 상대적으로 덜 활용될 가능성도 있다. 이러한 맥락에서 앞으로는 연구자, 기업, 공공기관이 협력해 한국어 기반 메이저 놀이터 리소스를 점진적으로 확충하고, 한국도 기술 강국을 넘어 개방형 메이저 놀이터 생태계에서 의미 있는 위상을 확보해 나갈 필요가 있어 보인다.

.
.
2025
공개SW 가이드/보고서 - 번호, 제목, 작성자, 조회수, 작성
번호 제목 작성자 조회수 작성
공지 [2025년] 기업 오픈소스메이저 놀이터 순위 거버넌스 file support 7334 2025-02-28
공지 [2025년] 공공 오픈소스메이저 놀이터 순위 거버넌스 file support 5664 2025-02-28
공지 [2025년] 오픈소스메이저 사이트 라이선스 가이드 file support 6459 2025-02-28
공지 메이저 놀이터 소프트웨어 연구개발(R&D) 실무 가이드라인 배포 file support 34779 2022-07-28
공지 보증 사이트 추천소프트웨어 연구개발 수행 file OSS 31530 2018-04-26
537 [7월 월간브리핑] AI·공급망 보안·표준화를 잇는 생태계 전략의 중심, 오픈소스 - 메이저 support 467 2025-07-28
536 [기획기사]허깅페이스와 메이저 놀이터 월드를 통해 본 오픈소스 메이저 놀이터 생태계 - support 507 2025-07-28
535 [기고] SDV 시대, 글로벌 OEM과 오픈소스 협업의 미래 support 498 2025-07-23
534 [기획브리핑] 오픈소스 메이저 카지노 사이트, 산업별 경제적 영향 support 549 2025-06-24
533 [6월 월간브리핑] 오픈소스메이저 놀이터, 선택적 기술에서 산업 기반 인프라로 support 627 2025-06-24
532 [기고] 오픈소스, 기여와 수혜는 시작과 끝을 맺을 수 없는 순환 그 자체 support 494 2025-06-24
531 오픈메이저 놀이터 순위트로 자동차 산업을 잇다! ‘자동차 support 503 2025-06-24
530 [기획브리핑] 국내 주요 기업의 오픈소스 LLM 메이저 사이트 현황 support 3972 2025-05-27
529 [5월 월간브리핑] 2025 기업의 메이저 카지노 사이트 활용 support 1528 2025-05-26
528 [기고]생성형 메이저 사이트 추천 모델, 학습 데이터 및 생성 콘텐츠의 저작권과 라이선스 support 1227 2025-05-26
맨 위로
맨 위로