データは、シーズンが終わる前に誰がNCAAトロフィーを持ち帰るのかを本当に予測できるのでしょうか?
ネタバレ:可能であり、実際にそうしてきました。
Minitab本社とペンシルベニア州立大学があるペンシルベニア州ステートカレッジでは、秋と言えばフットボールです。
空気が冷え、プレーオフレースをかけた争いが激化すると、数字を分析して最も重要なときにどのチームのパフォーマンスが「崩れない」かを見るのに最適な時期です。
2025年の全国チャンピオンを予測するために、プリンストンがグリッドアイアンを支配した1869年まで遡る統計の宝庫(本当の話です)、sports-reference.comからデータを引き出しました。
しかし、現代では大学フットボールは大きく変わってきています。そのため、埃っぽい歴史を掘り起こすのではなく、2014年に始まったカレッジフットボールプレイオフ(CFP)時代に焦点を当てました。
面白い事実:2014年以来、全国チャンピオンが11月の最終AP投票で5位以下にランクされたことはありません。
解釈:11月までに、真の候補はすでに見込まれているというわけです。
この洞察をもとに、トップ10チームだけに集中し、候補外のチームからの雑音は取り除きました。
目標:各トップ10チームが優勝する確率を予測すること。
Logistic Regression、Random Forests、TreeNetなどの分類モデルを使用して、スプレッドシートを使ってMinitabにフットボールコーチのように考えるようにトレーニングしました。
モデルの内容は次のとおりです。
要するに、チャンピオンと9月にただ良く見えただけのチームとを区別する全ての要素です。
2014年から2024年までの統計をエクスポートし、クリーニングと準備のためにMinitab Data Centerから送信しました。Minitab AIにより、ほとんどのクリーンアップは自然言語を通して行われ、反復的手順を節約し自動化する機能が実現し、以前は時間がかかっていた作業が、今ではスムーズに進行します。
正直に言って、10年分のフットボールデータを手作業でクリーンアップしたい人はいません。
データの準備ができたら、Minitab Statistical Softwareにスタックし、以下を使用しました。
Automated Machine Learning(自動機械学習) > Discover Best Model(最適なモデルの検出)(バイナリーレスポンス)
これは、複数のモデルを迅速にテストし、最も得点の高いモデルを特定するMinitabの予測分析ソリューションです。
勝者は? Random Forestです。
「勝者」対「敗者」の最も正確な予測が提供されました。
Random Forestモデルは、チャンピオンシップにおける成功の4つの最大予測因子を明らかにしました。
要点:守備が依然としてチャンピオンシップを勝ち取ります - これは、コーチだけでなくデータによって確認されています。
それでは発表します...
トップ10チームの2025年のシーズン途中の統計を使用して、各チームがタイトルを獲得する確率を計算し、合計が100%になるように結果を標準化しました。
2025年11月5日現在、このモデルの予測は以下の通りです。
Ohio StateとIndianaには、全国タイトル獲得の最も大きいチャンスがあります。
Big Tenにとっても状況は悪くありません。Georgiaは残念ながら、今年は良い年ではないようです。
結果の追跡を簡単にするため、インタラクティブなMinitab Dashboardを構築しました。
Minitab AIを使用すれば、データソースを接続するのと同じくらい簡単です。チャート、表、モデルの結果が自動的に1つのダイナミックビューにまとめられます。
これは、マスコットヘッドのない自分バージョンのESPNのCollege GameDayのようなものです。
ダッシュボードは新しいデータが入ってくると自動的に更新されるので、どのチームが成績を上げているか、後れを取っているかがすぐに確認できます。これは、チャンピオンシップレースを追うリアルタイムのデータ駆動型方法です。
要するに、推測は不要になります。今すぐモデリングを始めましょう。
この分析は、サッカーファンが既に知っていることを証明しています。チャンピオンシップは誇大宣伝や見出しで決められるものではありません。
現場でもビジネスでも、チャンピオンシップを獲得するのは守備、規律、データです。