AI로 API 비용 줄이기, 진짜로 Claude 비용 절반 날린 셀프 수정 에이전트

AI로 API 비용 줄이기를 실현한 개발자가 Claude 사용량을 절반으로 줄이는 자가 수정 에이전트 시스템 'HOLLOW'를 직접 만들어서 공개했어.

배경: Claude 쓸 때마다 쌓이는 API 비용이 문제였어

Claude로 코드 짜다 보면 API 호출이 생각보다 빠르게 쌓이거든. 이 개발자도 그게 부담이었어. 근데 해결책을 "더 싼 모델 찾기"가 아니라 "Claude는 방향만 잡고, 나머지는 로컬에서 알아서 돌리기"로 잡은 거야. 발상 자체가 달라.

사용한 AI툴과 방법: Claude + Qwen 로컬 모델 조합

작동 방식은 이래. Claude한테 작업 지시를 설계하게 한 다음, 그 지시문을 복붙해서 로컬 에이전트한테 던져줘. 그러면 RTX 5070 게이밍 PC(CPU 환경도 가능, 그냥 느릴 뿐)에서 Qwen 3.5 9B 모델이 24시간 루프를 돌면서 코드를 짜고, 테스트하고, 실패하면 스스로 수정하고, 다시 반복해. 6시간 뒤에 와서 결과물 확인하면 되는 구조야.

핵심은 자가 수정(self-modification) 기능이야. 에이전트한테 할 일이 없으면 자기 자신을 구성하는 파일을 검토하고, 개선안을 제안하고, 전체 에이전트 2/3 이상이 동의하면 샌드박스 안에서 자율로 업데이트해. 사람이 개입 안 해도 시스템이 혼자 진화하는 거거든.

AI로 API 비용 줄이기, 실제 결과는

Claude API 사용량 50% 감소. 무거운 추론은 Claude가 처음에 한 번만 하고, 반복 실행은 로컬 모델이 전부 가져가니까 비용이 그만큼 안 나와. GitHub 공개 한 달 만에 스타 74개, 테스터 수백 명이 붙었어.

따라할 수 있는 포인트

로컬 GPU 있으면 바로 시작 가능: 레포(github.com/ninjahawk/hollow-agentOS) 클론하면 돼. GPU 없어도 CPU로 느리게나마 돌아가
Claude는 설계자로만 써: 반복 실행·테스트·수정은 무조건 로컬 모델한테 넘기는 습관 자체가 비용 절감의 핵심이야
목표 상태를 고정 앵커로 설정: 내가 원하는 결과물을 앵커 상태로 정해두면 에이전트가 알아서 그 방향으로 진화해. 설정값에 따라 사람마다 다른 버전이 나오는 게 설계 의도야

한줄 정리

AI로 API 비용 줄이기, 핵심은 "비싼 모델은 설계만, 실행은 로컬"이라는 역할 분리야.

🔗 참고 링크

원본 출처: I Cut Claude API Costs by 50% Using This Self Modifying Agentic System
관련 AI 툴: Claude · Qwen

HANGAHANI

이 블로그 검색

AI로 개발자 채용 자동화하기, 이게 진짜 판이 뒤집힌 거야