MistralV3, Claude-Sonnet, o1-Mini와 Gemini-ept-1206: 실제 환경에서의 AI 프로그래밍 어시스턴트 비교

AI 지원 프로그래밍이 점점 보편화되는 오늘날, 적합한 AI 어시스턴트를 선택하는 것이 더욱 중요해지고 있습니다. AI 프로그래밍 어시스턴트를 오랫동안 사용해온 개발자로서, 최근 현재 주요 AI 프로그래밍 어시스턴트 4개를 실제 프로젝트에서 비교하는 흥미로운 실험을 진행했습니다. 이 실험을 통해 각 모델에 대해 더 깊이 이해할 수 있었고, 몇 가지 놀라운 결과도 발견했습니다.

실험 배경: 실제 개발 요구사항

크리스마스 휴가 기간 동안, Google Home과 Alexa보다 더 뛰어난 솔루션을 만들기 위해 더 스마트한 홈 어시스턴트 프로젝트 개발을 시작했습니다. 주요 기능 중 하나는 AI의 메모리 시스템을 구현하는 것이었습니다. 예를 들어, 사용자가 "나는 계란을 싫어해, 이 점을 기억해줘"라고 말하면, 시스템이 이후 레시피를 추천할 때 계란이 포함된 요리를 피하는 것입니다.

이 기능을 구현하기 위해, Azure 테이블 스토리지와 데이터를 주고받는 프록시 역할을 하는 Azure Functions 프로젝트를 개발하고, 이를 기존 Blazor WASM 애플리케이션에 통합해야 했습니다. 이 겉보기에 단순한 요구사항은 실제로 프로젝트 생성, 클라우드 배포, 기존 프로젝트 기능 확장 등 여러 단계를 포함하고 있어, AI 프로그래밍 어시스턴트의 능력을 테스트하기에 매우 적합했습니다.

Claude-Sonnet: 신뢰할 수 있는 베테랑

Claude-Sonnet의 성능은 마치 경험이 풍부한 시니어 엔지니어와 같았습니다. 전체 개발 과정에서 뛰어난 코드 품질 관리 능력을 보여주었고, 코드의 문제를 자동으로 발견하고 수정할 수 있었으며, 배포 완료 후에는 도구의 URL까지 지능적으로 미리 채워넣었습니다. 하지만, 이 "베테랑"의 서비스는 저렴하지 않았습니다. 기본 API에서는 단 0.2달러로 한도에 도달해 OpenRouter로 전환해야 했습니다. 더 놀라운 것은 OpenRouter를 통한 사용 비용이 2.1달러나 되었고, 성능도 다소 저하되었다는 점입니다.

MistralV3: 놀라운 다크호스

MistralV3의 성능은 매우 인상적이었습니다. OpenRouter와 공식 API를 통해 각각 테스트를 진행했는데, 결과는 매우 달랐습니다. OpenRouter를 통할 때는 다소 서툴러 보였고, 코드 중복과 기능 제한 문제가 있었습니다. 하지만 공식 API를 사용했을 때는 마치 다른 모델처럼 변했습니다. 코드 품질이 거의 Claude에 필적했고, 실행이 원활했으며, 몇 가지 독특한 해결책도 제시했습니다. 가장 놀라운 점은 가격 우위였습니다. 전체 작업을 단 0.02달러로 완료했습니다. 배포 단계에서는 다소 전통적인 수동 zip 배포 방식을 선택했지만, 리소스를 자체적으로 찾고 스토리지 연결 문자열을 구성하는 등 놀라운 능력도 보여주었습니다.

Gemini-ept-1206: 잠재력 있는 신예의 성장통

Gemini는 잠재력은 있지만 경험이 부족한 신입과 같은 인상을 주었습니다. 모든 모델 중 가장 상호작용이 활발했으며, 런타임 버전 등의 세부 사항을 적극적으로 문의했습니다. 배포 구성 면에서는 뛰어났고, 환경 변수 구성을 미리 고려했습니다. 하지만 몇 가지 "성장통"도 보였습니다: 처리 속도가 느려 작업 완료에 20분이나 걸렸고, 토큰 제한으로 인해 작업을 여러 번에 나눠 완료해야 했습니다. 가장 곤란한 점은 24시간이 지난 후에도 비용 통계가 투명하지 않아 사용 비용을 정확히 평가할 수 없다는 것이었습니다.

o1-Mini: 실현되지 못한 약속

o1-Mini의 성능은 다소 아쉬웠습니다. 초반에는 괜찮은 모습을 보였고, 프로젝트 설정이 원활했으며 초기 코드 품질도 수용할 만했습니다. 하지만 이후의 성능은 점점 저하되었습니다: 응답 속도가 느리고, 자주 잘못된 가정을 했으며(예: 잘못된 지역에 리소스 그룹 생성), 문제 해결 효율성도 낮았습니다. 2.2달러를 소비한 후에는 문제 해결을 위해 .NET 버전을 다운그레이드하라고 제안했고, 이로 인해 테스트를 조기 종료해야 했습니다.

실전 경험과 조언

이번 실험을 통해 몇 가지 실용적인 조언을 얻을 수 있었습니다. 개인 개발자와 소규모 프로젝트의 경우, MistralV3가 단연 최선의 선택입니다. 코드 품질과 비용의 완벽한 균형을 보여주었습니다. 예산이 충분하다면 Claude-Sonnet는 여전히 기업급 개발에 신뢰할 만한 선택입니다. Gemini는 상세한 상호작용 가이드가 필요한 상황에 적합하며, o1-Mini는 특정 알고리즘 최적화 문제에서 활용 가치가 있을 수 있습니다.

주목할 만한 점은 OpenRouter를 통해 이러한 모델들을 사용하면 성능이 영향을 받는 경우가 많으므로, 가능하다면 공식 API를 우선적으로 사용하는 것이 좋습니다. 동시에, AI 프로그래밍 어시스턴트 분야가 빠르게 발전하고 있으며, 각 모델의 능력이 지속적으로 향상되고 있어 향후 경쟁 구도가 크게 변할 수 있다는 점도 인식해야 합니다. 적절한 AI 어시스턴트를 선택할 때는 특정 선택을 맹목적으로 따르기보다는 구체적인 프로젝트 요구사항, 예산 제한, 개발 환경을 고려하여 결정해야 합니다.