실시간 전세계에서 몰리는 경기 순위
순위 오즈
1 네덜란드 1.25
2 이집트 1.44
3 웨일즈 1.02
4 세네갈 1.40
5 알제리 1.50
종목별 팀순위
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19
1 첼씨 8 6 1 1 19

gpt-4.5 종합적 요약

작성자 정보

  • 커뮤맨 작성
  • 작성일

컨텐츠 정보

본문


grok3한테 GPQA, AIME 벤치 10~30% 격차정도로 따임. (심지어 AIME 벤치는 grok3 mini한테 밀리는 모습)




에이전트 코딩 벤치도 sonnet 3.7한테 따이고, 몇달전에 출시된 sonnet 3.6이라고 놀림받는 sonnet 3.5(new) 랑 비비는 모습




arc-agi 벤치 또한 sonnet 3.7과 점수는 거의 동일한데 비해 cost per task(가격 대비) 측면에서 압도적으로 뒤떨어짐



가격은.....10~30배 이상 상승




억까없이 담백하게 팩트만 말하자면


1. 기존의 모델 크기(파라미터 수, 층 쌓기)와 컴퓨팅 파워만을 늘리는 스케일 법칙은 더 이상 유효하지 않을 가능성이 굉장히 높다.

2. openai는 더 이상 "베이스모델" 에서의 성능 이점을 잡고 있다고 보기 힘들다.


물론 여기서 말하는 베이스모델은 test time compute 추론모델을 제외한 것이며, 추론모델은 아직까지 지표상으로는 o3가 가장 높지만, 이 또한 deepseek r2, grok3 big brain, gemini 2 pro thinking 등 타사 기업의 모델에 추월당할 가능성이 굉장히 높다고 생각한다.

openai는 더욱 분발해야 함.





- dc official App

그동안의 GPT-4.5(오리온) 찌라시 떡밥 모음









트위터에서 좋아요 7k받은 GPT-4.5 짤....jpg








관련자료

댓글 0
등록된 댓글이 없습니다.
전체 55,790 / 33 페이지
번호
제목
이름
    • 1
      다아라
      268,292 P
    • 2
      GodGhs
      213,524 P
    • 3
      소이
      208,300 P
    • 4
      간쥐떼
      197,200 P
    • 5
      jordan
      195,000 P
    • 6
      Kaeee
      193,100 P
    • 7
      돈뱅석
      186,762 P
    • 8
      사탕
      169,400 P
    • 9
      김춘배
      153,650 P
    • 10
      jym0405
      146,387 P
    • 1
      이재림
      LV. 44
    • 2
      GodGhs
      LV. 41
    • 3
      돈뱅석
      LV. 41
    • 4
      다아라
      LV. 32
    • 5
      역삼동
      LV. 32
    • 6
      robin
      LV. 32
    • 7
      럭키비키데이
      LV. 32
    • 8
      minmin
      LV. 31
    • 9
      눈보라
      LV. 31
    • 10
      소년소녀백성
      LV. 31
알림 0