AI로 모델 자동 선택하기, 진짜로 월 비용 98% 줄인 팀 이야기

AI로 모델 자동 선택하기 — 스택이 스스로 똑똑해지는 구조 만든 팀

AI로 모델 자동 선택하기를 직접 구현해서 LLM 비용을 월 $420에서 $8 수준까지 떨어뜨린 팀이 있어.

어떤 문제에서 시작했냐면

3개월 전까지만 해도 이 팀은 태스크마다 어떤 모델 쓸지 손으로 골랐어. 프롬프트 테스트하고, 결과 비교하고, 프로바이더 갈아끼우고. 작은 규모엔 통했는데 트래픽이 늘면서 한계가 왔거든. 사람이 일일이 최적화하는 건 스케일이 안 된다는 걸 깨달은 거야.

어떻게 만들었냐면

핵심은 피드백 루프야. 모든 요청마다 입력·출력·사용 모델·토큰 수·비용·지연시간·품질 점수를 통째로 추적했어. 그리고 임베딩으로 비슷한 요청들을 클러스터링한 뒤, 각 클러스터에서 어떤 모델이 실제로 잘 작동하는지 학습하는 라우터를 붙였거든. 벤치마크 기준이 아니라 진짜 프로덕션 결과 기준이야.

3주치 데이터가 쌓이자 7B 모델을 자체 워크로드로 파인튜닝했어. 분류·태깅·요약 작업을 이 모델이 가져갔는데, GPT-4.1 대비 95% 일치율을 내면서 비용은 2% 수준이었어.

할루시네이션 감지도 모든 응답에 돌아가고 있어. 나쁜 출력은 자동으로 플래그 달려서 다음 훈련 라운드의 네거티브 예시가 되고, 좋은 출력은 포지티브 데이터가 되는 거야.

결과가 어떻게 됐냐면

  • 1개월차: $420/월
  • 2개월차: $73/월
  • 4개월차: 계속 떨어지는 중

3개월차엔 아무것도 안 건드렸는데 비용이 12% 더 떨어졌어. 트래픽이 늘수록 데이터가 쌓이고, 데이터가 쌓일수록 라우팅이 정교해지고, 모델 성능도 올라가는 구조라서 시간이 지날수록 알아서 좋아지더라는 거야.

따라할 수 있는 포인트

처음부터 완성된 시스템을 만들려고 할 필요 없어. 일단 모든 LLM 요청에 로그부터 남기는 것에서 시작해봐. 비용·지연·품질 점수만 기록해도 몇 주 뒤에 패턴이 보이거든. 그 다음에 라우팅 로직을 붙이는 식으로 단계적으로 가면 돼. AI로 모델 자동 선택하기는 거창한 ML 인프라 없이도, 로그 → 분석 → 규칙 기반 라우터 순서로 점진적으로 접근할 수 있어.


스택 자체가 학습하는 구조를 만들면, 나중엔 아무것도 안 해도 비용이 알아서 줄어들어.

🔗 참고 링크

댓글