경량 모델의 반란? 구글 제미나이 3 플래시부터 GPT-5.2 코덱스까지, AI 대격변의 한 주
본문
인물 소개 - 조코딩
프로그래밍에 대해 아무것도 모르더라도 개발이 가능하도록 기초부터 차근차근 쉽게 설명해드립니다. 또한, 단순히 코딩 지식을 배우는 것을 넘어서 웹, 앱, 게임 같은 결과물을 만들고 비즈니스 모델을 만들어 수익화 하거나 주식/코인 투자 자동화, 업무 자동화를 하는 등 실용적인 관점에서 코딩을 교육합니다.
이번 주는 전 세계 AI 업계에 그야말로 '폭풍'이 몰아친 한 주였습니다. 구글, 오픈AI, 메타 등 빅테크 기업들이 앞다퉈 혁신적인 모델과 기능을 쏟아냈기 때문입니다. 특히 경량화 모델이 기존 플래그십 모델의 성능을 위협하는 하극상이 일어났고, 시청각 영역에서의 AI 기술은 마법에 가까운 수준으로 진화했습니다. 영상 내용을 바탕으로 금주의 핵심 AI 트렌드를 정리해 드립니다
구글의 역습 : 가벼운데 더 강하다, 제미나이 3 플래시 출시
가장 충격적인 소식은 구글의 '제미나이 3 플래시(Gemini 3 Flash)' 출시입니다. 통상적으로 '플래시' 모델은 성능을 타협한 가성비 모델로 인식되어 왔습니다. 하지만 이번은 달랐습니다.
- 성능 역전 : 제미나이 3 플래시는 경량 모델임에도 불구하고 세계 3위 성능을 기록했으며, 심지어 제미나이 3 프로의 일부 벤치마크 점수를 능가하는 기염을 토했습니다.
- 압도적 가성비와 코딩 능력 : 가격은 프로 대비 매우 저렴(0.5달러)하면서도, 코딩 성능 지표인 '소프트웨어 벤치 베리파이드'에서 프로 모델뿐만 아니라 오퍼스(Opus)까지 제치고 76.2%의 점수를 기록했습니다.
- 강화 학습(RL) : 구글은 단순히 모델 크기만 줄인 것이 아니라, 에이전트 강화 학습에 대한 최신 연구를 플래시 모델에 선제적으로 적용하여 추론 능력을 극대화했습니다.
오픈AI의 맞불 : GPT 이미지 1.5 & GPT-5.2 코덱스
- GPT 이미지 1.5 : 기존보다 최대 4배 빠른 생성 속도를 자랑하며, 나노바나나와 유사하게 정밀한 편집이 가능해졌습니다. 배경을 바꾸거나 인물을 추가하는 작업이 훨씬 자연스러워졌고 API도 제공됩니다.
- GPT-5.2 코덱스(Codex) : 첨단 코딩 모델인 5.2 코덱스는 사이버 보안 역량이 대폭 강화되었습니다. 해킹 방어 대회(CTF) 챌린지에서 정확도가 88%까지 상승하여, 향후 취약점 점검 등 보안 분야에서의 활용도가 매우 높을 것으로 기대됩니다.
- 음성 모델 강화 : 환각 현상을 89%나 줄인 새로운 트랜스크립션 모델과 더 자연스러운 TTS 모델도 함께 공개되었습니다.
'듣고 보는 모든 것을 분리한다' 메타와 알리바바의 혁신
- 메타 샘 오디오(SAM Audio) : 텍스트 입력만으로 특정 소리를 분리해내는 기술입니다. 밴드 연주에서 "기타 소리만 남겨줘"라고 하면 정말 기타 소리만 추출하고 나머지는 지워버립니다. 소음 속 목소리 추출 등 활용도가 무궁무진합니다.
- 알리바바 'Qwen-Image-Layered' : 이미지의 구성 요소(피사체, 배경, 텍스트 등)를 레이어별로 분리해 주는 오픈 소스 모델입니다. 포토샵 없이도 이미지의 특정 요소만 떼어내어 이동시키거나 편집할 수 있어 디자이너들에게 희소식이 될 전망입니다.
흥미로운 단신 : AI가 예측하는 이혼 확률 90%?
AI의 예측 능력은 이제 인간 관계의 영역까지 침범했습니다. LLM을 활용해 가상 아바타끼리 데이트를 시켜본 결과, 실제 연애 성사 여부는 물론 부부의 이혼 여부까지 90%의 정확도로 예측해냈다는 연구 결과가 나왔습니다. 머지않아 소개팅 앱에서 AI가 먼저 만나보고 궁합을 알려주는 시대가 올지도 모르겠습니다.
- 이전글 어도비, AI 영상 강자 '런웨이'와 맞손 - 프리미어 프로에 런웨이 모델 탑재 25.12.23
- 다음글 요즘 난리난 Google Gemini 나노 바나나, 실전 활용 예제 TOP 10 (+프롬프트 공개) 25.12.22
등록된 댓글이 없습니다.
