검색
약 8분 읽기
Cheese
AI

Qwen3.6-35B-A3B, 오픈소스 코딩 모델이 상용 에이전트의 가격 공식을 깨기 시작했다

MoE 구조와 Apache 2.0이 만든 비용 구조 전환점

#Qwen3.6-35B-A3B #오픈소스 코딩 모델 #MoE 아키텍처 #Qwen Code #로컬 LLM

월 수십만 원짜리 API 청구서가 당연한 것처럼 여겨지던 시장에 균열이 생겼다. Qwen3.6-35B-A3B가 공개된 이후, 한국 개발 커뮤니티에서는 조용하지만 진지한 대화가 오가고 있다. “이거 실제로 Claude Code 대체할 수 있는 거 아니야?”

결론부터 말하면: 전면 대체는 아직 아니다. 하지만 가격 공식은 이미 깨졌다.

35B인데 왜 3B처럼 빠른가 — MoE 구조 해부

Qwen3.6-35B-A3B의 핵심은 이름 안에 있다. 35B-A3BTotal 35B parameters, Active 3B per token을 뜻한다.

Mixture-of-Experts(MoE) 구조에서 35B 파라미터 전체가 매 토큰마다 활성화되지 않는다. 대신 라우터가 각 토큰에 가장 적합한 전문가(expert) 레이어를 선택적으로 활성화하고, 나머지는 유휴 상태를 유지한다. 실제 추론 연산에 참여하는 파라미터는 약 3B 수준이다.

Qwen3.6-35B-A3B MoE 아키텍처 — 활성화되는 sparse expert 노드

이 구조가 실전에서 의미하는 것:

  • 메모리: RTX 4090 1장(24GB VRAM)에서 Q4 양자화로 로드 가능
  • 속도: 16B dense 모델과 비슷한 VRAM 점유, 추론 속도
  • 성능: SWE-bench Verified 기준 상위권, Qwen2.5-Coder-32B 대비 코딩 벤치마크 전반 개선

이 숫자들이 조합되면 지금까지 불가능했던 방정식이 성립된다: 상용 에이전트급 코딩 성능 × 로컬 호스팅 비용.

단순 코딩이 아닌 에이전트형 코딩에 맞춰진 모델

Qwen3.6-35B-A3B가 이전 세대 오픈소스 코딩 모델과 다른 지점은 단일 함수 완성이 아니라 repo-level reasoning에 초점을 맞췄다는 데 있다.

실제로 이 릴리스에서 알리바바 클라우드가 강조한 것은 챗봇 성능보다 다음 두 가지였다:

  1. 긴 컨텍스트 코드 이해: 여러 파일에 걸친 의존성 추적, 대규모 코드베이스 탐색
  2. 터미널 중심 에이전트 루프: shell 명령 실행, 파일 수정, 오류 반복 수정 패턴

이 두 요소는 Claude Code나 Codex CLI가 실제로 잘 쓰이는 영역과 정확히 겹친다. Qwen Code(공식 VS Code 익스텐션)가 Claude Code와 유사한 UX를 채택한 것도 이 맥락이다.

Terminal window
# Ollama로 로컬 실행 예시
ollama pull qwen3.5:35b-a3b-instruct-q4_K_M
ollama run qwen3.5:35b-a3b-instruct-q4_K_M
# Anthropic 호환 API 엔드포인트로 연결 (OpenAI 포맷도 지원)
from anthropic import Anthropic
client = Anthropic(
base_url="http://localhost:11434/v1", # Ollama endpoint
api_key="ollama",
)
response = client.messages.create(
model="qwen3.5:35b-a3b-instruct-q4_K_M",
max_tokens=4096,
messages=[{"role": "user", "content": "이 PR의 diff를 리뷰해줘..."}]
)

Anthropic 호환 엔드포인트를 지원한다는 점이 중요하다. Claude Code 기반 워크플로우를 그대로 유지한 채 백엔드 모델만 교체하는 것이 기술적으로 가능하다.

Apache 2.0과 생태계가 만드는 실질적 전환 비용

오픈소스 모델의 허들은 항상 두 가지였다: 라이선스와 생태계. Qwen3.6-35B-A3B는 두 가지 모두 공격적으로 해결했다.

Apache 2.0: 상업적 사용, 수정, 재배포 자유. 팀 내 코딩 에이전트를 직접 호스팅해도 법적 리스크가 없다. Meta의 Llama 3에 붙은 사용량 제한 조항 같은 것도 없다.

오픈소스 코딩 모델 비용 비교 — 상용 API vs 로컬 호스팅

생태계 현황:

도구상태
Qwen Code (VS Code)공식 지원
Ollama지원 (qwen3.5:35b-a3b)
LM Studio지원
OpenAI 호환 API지원
Anthropic 호환 API지원
Continue.dev지원

이 생태계 커버리지가 의미하는 것: Claude Code, Cursor, Copilot Chat 어느 도구를 쓰던 백엔드 모델을 Qwen3.6-35B-A3B로 교체하는 설정 비용은 30분 이내다. 코드 한 줄 수정 없이.

한국 개발자에게 실질적으로 무슨 의미인가

지금 한국 개발자들이 Claude Code와 Codex를 쓰는 데 느끼는 3가지 마찰점이 있다.

1. Quota 한계: Claude Pro의 일일 사용량 제한은 이미 여러 번 커뮤니티에서 화제가 됐다. 집중 개발 세션 중간에 끊기는 경험은 워크플로우를 망가뜨린다.

2. 비용 스케일링: 팀 단위로 코딩 에이전트를 쓰면 월 비용이 선형적으로 올라간다. 스타트업에서 5인 팀이 Claude Code + Codex를 동시에 쓰면 월 100만 원 넘는 구간이 나온다.

3. 데이터 통제: 코드가 외부 API를 통과하는 것을 꺼리는 팀이 여전히 많다. 특히 핀테크, 헬스케어, 공공 프로젝트.

Qwen3.6-35B-A3B의 로컬 호스팅은 이 세 가지를 동시에 해결한다. RTX 4090 1장 기준 전기료를 포함해도 월 3-5만 원 수준의 고정 비용으로 무제한 사용이 가능하다. 클라우드에 올릴 경우 H100 단일 인스턴스로 팀 전체가 쓸 수 있는 처리량이 나온다.

물론 트레이드오프는 있다. 현재 시점에서 초장문 컨텍스트 처리나 매우 복잡한 멀티스텝 추론에서는 Claude 3.7 Sonnet이나 Gemini 2.5 Pro 대비 아직 갭이 존재한다. 긴 디버깅 세션에서의 일관성도 상용 모델이 앞선다.

현실적인 활용 전략은 하이브리드다: 반복적인 코드 생성, 리뷰, 보일러플레이트 작업은 로컬 Qwen3.6-35B-A3B로, 복잡한 아키텍처 결정이나 까다로운 버그 추적에는 상용 모델을 유보하는 방식. 이 구조에서 상용 API 비용은 60-80% 줄어들 수 있다.

하이브리드 코딩 에이전트 워크플로우 — 로컬 + 클라우드 분산 구조

가격 공식이 깨졌다는 것은 상용 모델이 사라진다는 의미가 아니다. 상용 모델의 당연한 위치에 의문이 생겼다는 것이다. 지금까지 “어차피 비쌀 수밖에 없지”가 기본값이었다면, 이제 팀마다 “어디서 어느 모델을 써야 하는가”를 계산하기 시작해야 하는 시대가 됐다.

Related reads

함께 읽으면 좋은 글

더 보러 가기