MENU

Claude Code・ChatGPT開発実践とシステム自動化の最前線

AGI時代のビジネスAI研究所

ベンチマーク– tag –

医療・ヘルスケア

Gemini 3.0が放射線科研修医を超えた51%達成：医療AI史上初の快挙、ただし臨床展開には3つの壁

医療AI分野で歴史的瞬間が訪れました。Google DeepMindのGemini 3.0 Proが、放射線科の最難関ベンチマーク「RadLE v1」で51%の精度を達成し、放射線科研修医の45%を上回りました。これは、汎用AIモデルが初めて研修医レベルを超えたという画期的な成果で...

2025年11月23日
技術動向

【GPT-5 pro SOTA達成】ARC-AGI-2で18.3%──OpenAIが示す真の知性測定、70.2%のARC-AGI-1を超える難関ベンチマークの意義と未来

GPT-5 pro、ARC-AGI-2でSOTA達成──AIの「真の知性」測定に新たな基準 2025年10月9日、AI業界に衝撃的なニュースが駆け巡りました。 OpenAIのGPT-5 proが、ARC-AGI-2ベンチマークで18.3%のスコアを記録し、SOTA（State of the Art：最先端）を達成したので...

2025年10月11日
AI駆動開発

【APEX革命】Mercorが発表したAI生産性指数：GPT-5が64.2%で首位も「実務レベルには未到達」の衝撃

APEX AI生産性指数が明かす衝撃の真実：AIは本当に仕事を奪えるのか 2025年10月、AI人材プラットフォームを運営するMercorが、AIモデルの経済的生産性を測定する革新的なベンチマークAPEX（AI Productivity Index）を発表した。投資銀行、法律、コンサルテ...

2025年10月1日
Claude Code実践

【2025年1月最新】AIモデル性能ランキング完全分析：GPT-5、DeepSeek-R1、Claude-4が競う新時代の頂上決戦

LMSys Arena等主要ベンチマークで判明：GPT-5が総合トップ、DeepSeek-R1がコスパ王座、Claude-4がコーディング制覇。380万票の評価データが示す2025年AIモデル勢力図の決定版分析。

2025年8月23日

1