2024-01-15
전체 분석 영상 보기:
소개 및 특징
- 버전: Mistral
- 성능: V2보다 3배 빠름
- APA 호환성: 완벽
- 오픈소스 모델: Claude 3.5 Sonnet과 동등, Claude 30 Sonnet 능가
- 모델 규모: 671억 혼합 전문가 모델, 370억 활성 매개변수
- 학습 데이터: 14조 고품질 토큰
- 비용 효율성: 2월 8일 이전 가장 낮은 비용 중 하나
성능 비교
- 수학 벤치마크: Mistral 90점 획득, GPT-40의 74.6점 능가
- 언어 이해: Mistral 다수의 벤치마크 테스트에서 우수한 성과
아키텍처 및 기술
- 기본 아키텍처: 트랜스포머 블록, 혼합 전문가(MoE)
- 어텐션 메커니즘: 다중 헤드 잠재 어텐션, 128,000 토큰 지원
- 메모리 능력: 긴 시퀀스의 모든 정보 기억 가능
프로그래밍 테스트
- Python 테스트: 단위 행렬 생성, 최소공배수, Faray 수열, ECG 수열 등 도전적인 문제
- JavaScript 테스트: Josephus 문제와 같은 고급 과제
- 결과: Mistral 전문가 수준 테스트에서 뛰어난 성과, 오류 해결 및 대부분의 과제 통과
논리 및 추론 테스트
- 논리 문제: "strawberry"에서 "O"의 개수 세기 등
- 추론 능력: 일련의 논리 문제를 성공적으로 해결
자율 행동 테스트
- 에이전트 행동: Praise AI 패키지를 사용한 테스트
- 과제 예시: 잃어버린 고양이에 대한 영화 대본 작성
- 결과: 에이전트들이 협력하여 검색 도구를 활용하고 과제 완수
오도 테스트
- 시나리오 테스트: Runway trolley 문제
- 결과: Mistral 도덕적 판단 처리에 한계 보임
요약
- Mistral는 Claude 3.5 Sonnet과 대등하며, 일부 벤치마크에서 더 우수
- 오픈소스, 비용 효율적, 전문가 수준의 프로그래밍 및 논리적 추론 테스트에서 탁월
- 자율 행동 능력은 우수하나 오도 테스트에서 과제 직면
행동 촉구
- YouTube 채널 구독: AI 발전에 대해 더 많이 알아보기
- 다른 영상 시청: OpenAI의 Reason L 모델 출시에 대해