젠신, AI 집단 학습 알고리즘 'SAPO'로 훈련 효율 94% 개선

AI 연구 기업 젠신이 11일 탈중앙화된 집단 강화학습 알고리즘 ‘SAPO’를 발표했다. 개별적으로 훈련된 AI 모델들이 서로의 경험 데이터를 공유함으로써, 단독 훈련 방식 대비 누적 보상이 최대 94%까지 향상되는 결과를 보였다.
SAPO는 기존의 중앙화된 GPU 클러스터에 의존하는 대신, 여러 기기가 연결된 네트워크를 활용한다. 각 기기는 자체 모델을 훈련시키고 경험 데이터를 네트워크에 공유한다. 이는 무거운 데이터가 아닌 경량의 텍스트 데이터로, 다양한 기기들이 참여할 수 있다. 이로 인해 학습 성과가 전체로 빠르게 전파되어 학습 과정이 가속화된다.
젠신은 두 가지 환경에서 SAPO의 성능을 테스트했다. 통제된 실험에서 외부 공유 없는 기준 모델 대비 94%의 누적 보상 개선을 달성했으나, 외부 롤아웃 의존도가 높을 때 불안정성을 보였다. 오픈소스 데모에서는 더 나은 성능을 보였다. SAPO는 '경험 공유'가 학습 속도를 높이고 커뮤니티가 AI 발전에 기여할 수 있음을 입증했다.
젠신은 다양한 모델과 작업을 테스트하고, SAPO를 확장할 계획이다. 회사 측은 SAPO가 탈중앙화된 모델과 사람들이 서로를 가르치는 새로운 패러다임을 제시한다고 밝혔다.
82
0