AI로 PDF 변환 자동화, 토큰 낭비 없이 진짜로 해낸 방법

AI로 PDF 변환 자동화를 토큰 0개로 해낸 사람

AI로 PDF 변환 자동화를 하면서 Claude나 ChatGPT에 PDF 파일을 그냥 통째로 던지고 있었다면, 지금 조용히 돈을 태우고 있는 거야. Reddit 유저 mxsus가 이 문제를 직접 해결하려고 브라우저 기반 변환 도구 LiteDoc을 만들었어.

배경: PDF 업로드할 때마다 토큰이 증발하고 있었다

LLM은 PDF를 받으면 내부에서 페이지를 이미지로 래스터라이징해서 읽어. 이 과정에서 페이지 한 장당 약 850토큰이 날아가거든. 50페이지 PDF면 4만 토큰 넘게 쓰는 거야. 비용도 문제지만 컨텍스트 창도 금방 찬다는 게 더 치명적이었어.

사용한 도구와 방법: PDF.js + JSZip, 서버 없이 브라우저에서 끝

LiteDoc은 Python도, 서버도, pip install도 필요 없어. PDF.js와 JSZip만으로 브라우저 안에서 모든 걸 처리해. 구체적으로 어떻게 돌아가냐면:

PDF를 메모리에서 분해해서 텍스트 추출 → 글자 간격(X-gap) 분석으로 단어 깨짐 방지
폰트 크기를 읽어서 H1/H2/H3 마크다운 헤딩으로 자동 매핑
반복 등장하는 머리글·바닥글은 핑거프린팅으로 자동 제거
LaTeX 수식이나 아랍어처럼 특수 인코딩된 텍스트는 손상 감지 후 해당 부분만 이미지로 전환
최종 출력은 .md 파일 + 최적화된 이미지 폴더를 ZIP으로 묶어서 다운로드

결과적으로 Claude나 GPT에 넘길 때 텍스트는 raw 문자 수 기준으로만 토큰이 소모되고, 이미지는 필요한 것만 골라서 붙이면 돼.

결과: 토큰 수십만 개 → 실제 문자 수 수준으로 감소

이게 AI로 PDF 변환 자동화의 핵심이야. 무거운 PDF를 LLM에 직접 올리는 것 대비 토큰 사용량이 수십 배 줄어. 비용 절감은 당연하고, 컨텍스트 창을 아껴서 더 긴 분석이나 후속 질문을 이어갈 수 있어.

따라할 수 있는 포인트

litedoc.xyz 바로 써볼 수 있어, 가입 없음
PDF를 AI에 던지기 전에 마크다운 변환 먼저 → 텍스트 복붙 + 필요 이미지만 첨부하는 워크플로우로 바꿔봐
연구 논문, 계약서, 보고서처럼 텍스트 위주 PDF에서 효과가 특히 크더라
팀 단위로 쓴다면 변환 → 공유 → AI 분석을 하나의 템플릿 플로우로 만들면 반복 비용을 통째로 없앨 수 있어

한줄 정리

PDF를 그냥 올리는 건 AI한테 돈 주고 삽질 시키는 거야. 먼저 마크다운으로 변환하고 넘겨.

🔗 참고 링크

원본 출처: I built a local PDF-to-Markdown converter so you don't have to burn LLM tokens.
관련 AI 툴: Claude · ChatGPT · LiteDoc · PDF.js · JSZip

HANGAHANI

이 블로그 검색

AI로 부업 코딩 자동화, 진짜로 혼자 IDE 만든 개발자