पीएफआर विन प्रायिकता मॉडल

विंस्टन के समीकरण

हमारे जीत की संभावना मॉडल की जड़ें वेन विंस्टन की किताब के अध्याय 43 और 45 में दिए गए सिद्धांत में निहित हैं।गणित.

हैल स्टर्न द्वारा पिछले शोध का उपयोग करना[1] , विंस्टन ने कहा कि किसी दिए गए गेम में एनएफएल टीम के लिए जीत का अंतिम अंतर वेगास लाइन के माध्य और 13-14 के बीच एक मानक विचलन के साथ एक सामान्य यादृच्छिक चर के रूप में अनुमानित किया जा सकता है। (विंस्टन और स्टर्न की सटीक संख्या,व्युत्पन्न 1981, 1983 और 1984 के नियमित सीज़न से, 13.86 था; मैं 1978-2012 के कुल एनएफएल औसत के आधार पर 13.45 का उपयोग कर रहा हूं।)

विंस्टन को उद्धृत करने के लिए:

नॉर्मडिस्ट (एक्स, माध्य, सिग्मा, ट्रू)

हमें प्रायिकता देता है कि दिए गए माध्य और सिग्मा के साथ एक सामान्य यादृच्छिक चर x से कम या उसके बराबर है।

(यदि) सुपर बाउल XLI में कोल्ट्स 7-पॉइंट पसंदीदा हैं, तो उनके गेम जीतने की क्या प्रायिकता है?

यहां हम मानते हैं कि बिंदु प्रसार खेल के औसत परिणाम के बराबर है। कोल्ट्स 1 अंक या उससे अधिक के अंतिम अंतर के साथ जीत सकते हैं या कह सकते हैं, 0.5 संभावना के साथ जीत सकते हैं यदि विनियमन समय एक टाई में समाप्त होता है। कोल्ट्स के 1 या अधिक से जीतने की प्रायिकता:

= 1 - नॉर्मडिस्ट (0.5,7,13.86, TRUE) = 1 - 0.3196 = 0.6804।

संभाव्यता विनियमन टाई में समाप्त होता है:

= नॉर्मडिस्ट (0.5,7,13.86, TRUE) - नॉर्मडिस्ट (-0.5,7,13.86, TRUE) = 0.0253।

इसलिए, हम कोल्ट्स के सुपर बाउल XLI जीतने की संभावना 0.6804 + 0.5*(.0253) = 0.693 होने का अनुमान लगाते हैं।"

यह हमारे जीत संभाव्यता मॉडल का संरचनात्मक आधार बनाता है। हम प्रत्येक गेम के लिए उपरोक्त सूत्र (13.86 के बजाय स्कोरिंग मार्जिन के मानक विचलन के रूप में 13.45 का उपयोग करके) चलाते हैं, प्रत्येक टीम के लिए प्रीगेम जीतने की संभावनाएं उत्पन्न करने के लिए वेगास लाइन को औसत अपेक्षित बिंदु मार्जिन के रूप में प्लग करते हैं।

इन-गेम संभावनाएं

खेलों के दौरान, प्रक्रिया थोड़ी अधिक जटिल हो जाती है। सबसे पहले, हमें खेल में शेष समय की घटती मात्रा को ध्यान में रखते हुए विंस्टन के सूत्र को संशोधित करने की आवश्यकता है। विंस्टन को फिर से उद्धृत करने के लिए:

"अगर हम मानते हैं कि खेल के विभिन्न हिस्सों के दौरान मार्जिन में परिवर्तन स्वतंत्र हैं और समान वितरण का पालन करते हैं (तकनीकी शब्द समान रूप से वितरित किया जाता है), तो [ए] गेम के एन मिनट के दौरान मार्जिन का मानक विचलन है:

(मार्जिन का खेल मानक विचलन) / sqrt (खेल का अंश जो n मिनट है) ”

हमने पहले प्राप्त किए गए 13.45 मानक विचलन का उपयोग करते हुए, एनएफएल खेलों के लिए यह सूत्र इस प्रकार है:

STDEV = (13.45 / SQRT ((60 / मिनट_ शेष)))

तो 1 तिमाही के बाद, स्कोरिंग मार्जिन का अपेक्षित मानक विचलन प्रीगेम में 13.45 से 11.65, आदि हो जाता है।

माध्य के बारे में मानक विचलन को संशोधित करने के अलावा, हमें खेल में शेष समय की कम मात्रा के हिसाब से माध्य (वेगास लाइन) को भी समायोजित करने की आवश्यकता है। यद्यपि वह इस मुद्दे को सीधे मैथलेटिक्स में संबोधित नहीं करता है, पीएफआर के साथ एक ईमेल एक्सचेंज में, विंस्टन ने वेगास लाइन को रैखिक रूप से स्केल करने का सुझाव दिया था कि कितना समय बीत चुका था। उदाहरण के लिए, यदि प्रीगेम माध्य 60 मिनट के लिए +3 है, तो एक चौथाई (शेष 45 मिनट के लिए) के बाद यह 0.75 * 3 = +2.25 होगा।

(1-NORMDIST(((away_margin)+0.5),(-home_vegas_line*(45/60)),(13.45/SQRT((60/45))),TRUE))+(0.5*(NORMDIST(((away_margin)) )+0.5),(-home_vegas_line*(45/60)),(13.45/SQRT((60/45))),TRUE)-NORMDIST(((away_margin)-0.5),(-home_vegas_line*(45/60) )),(13.45/SQRT((60/45))), TRUE)))

डाउन/डिस्टेंस/फील्ड स्थिति के लिए लेखांकन

उपरोक्त समीकरण प्रत्येक आधे की शुरुआत के लिए ठीक काम करते हैं, क्योंकि परिभाषा के अनुसार स्थितियां तटस्थ हैं (पिछली तिमाही से कब्ज़ा नहीं किया जा रहा है)। हालांकि, किसी भी अन्य स्थिति के लिए इन-गेम संभावनाओं की गणना करने के लिए, हमें उनके नीचे, दूरी और क्षेत्र की स्थिति के अलावा, वर्तमान में गेंद किसके पास है, इस पर ध्यान देने के लिए एक अंतिम संशोधन करना होगा।

स्मरण करो कि 2012 में, हमने पेश किया थाअपेक्षित अंक (ईपी)। ईपी भविष्य के शुद्ध अंकों की औसत संख्या को मापता है, जिसकी हम खेल के अगले स्कोरिंग खेल में उत्पादन की उम्मीद करेंगे (चाहे कोई भी टीम स्कोरिंग करे)।

एक उदाहरण के रूप में, जब एक टीम के पास पहले और 10 पर अपने स्वयं के 20 पर गेंद होती है, तो उनके अपेक्षित अंक 0.28 होते हैं, जिसका अर्थ है कि खेल के अगले स्कोरिंग खेल में उन्हें औसतन 0.28 अंक मिलने की संभावना है। पहले डाउन पर 3 गज की दूरी हासिल करें (इसे 23 से दूसरा और 7 बनाते हुए), और EP 0.14 तक गिर जाता है, क्योंकि यह पंट के बाद होने वाली संभावित घटनाओं के अलावा, पहले डाउन होने की संभावना को कम करता है। इसके विपरीत, पहले डाउन पर 10 गज हासिल करें (इसे 30 से 1 और 10 बनाते हुए), और ईपी 0.94 तक बढ़ता है - डाउन के एक नए सेट का उत्पाद, साथ ही साथ बेहतर फील्ड पोजीशन।

दूसरे शब्दों में, EP वर्तमान खेल स्थिति के अपेक्षित औसत स्कोरिंग परिणामों को पकड़ लेता है। यह हमारी जीत की संभावना की गणना के लिए एकदम सही है, जो इस बिंदु पर स्कोरिंग मार्जिन, शेष समय और वेगास लाइन के लिए जिम्मेदार है, लेकिन तटस्थ खेल की स्थिति भी ग्रहण करता है। ईपी हमें उस अंतिम लापता टुकड़े को संभालने में मदद कर सकता है, अगर हम ईपी को खेल के वर्तमान मार्जिन में जोड़ते हैं (खेल की स्थितियों के आधार पर एक वास्तविक "वर्तमान अपेक्षित मार्जिन" उत्पन्न करते हैं) और वास्तविक बिंदु मार्जिन के बजाय उपरोक्त सूत्र में प्लग करें।

उदाहरण के लिए, विंस्टन के फॉर्मूले से हम उम्मीद करते हैं कि एक टीम (जैसे, "लॉस एंजिल्स") को 3 का समर्थन मिलेगा और खेल में 91.3% समय जीतने के लिए 10 मिनट शेष रहते हुए 7 से आगे चलेंगे। लेकिन अगर प्रतिद्वंद्वी के पास LA's 20 से पहली और 10 पर गेंद होती है - प्रतिद्वंद्वी के लिए एक 4.24 EP स्थिति - लॉस एंजिल्स का WP 72.3% तक गिर जाएगा, जो वर्तमान स्थिति का अधिक सटीक स्नैपशॉट है। यह वह संशोधन है जिसे हम ग्राफ़ और ट्वीट्स में देखे जाने वाले WP मीट्रिक की गणना करते समय सभी नाटकों (प्रत्येक आधे की शुरुआत के अलावा) पर लागू करते हैं।

प्रश्न/टिप्पणियां

जीत की संभावना का आकलन करने की उपरोक्त विधि के अलावा, 2016 के ऑफ सीजन में हमने खेल के आधे और अंत के अंतिम 5 मिनट के भीतर अलग-अलग मॉडल पेश किए। यह अधिक बारीकी से मिलान करने का प्रयास करता है जो हमें लगता है कि एक कोच किसी दिए गए खेल की स्थिति में क्या करने का फैसला कर सकता है - जाहिर है जैसे ही खेल खत्म हो जाता है, 2 पॉइंट लीड और 4 पॉइंट लीड के बीच बहुत बड़ा अंतर होता है।

उदाहरण के लिए, यदि कोई टीम 20 यार्ड लाइन पर 10 सेकंड के साथ 2 से पीछे चल रही है, तो हम उन्हें ऊपर बताए अनुसार 4.24 EP नहीं देना चाहते हैं क्योंकि यह उनके जीतने की संभावना को कम कर देगा - वास्तविक संभावना अधिक होनी चाहिए उस स्थान से एक क्षेत्र लक्ष्य बनाने की संभावना के साथ निकटता से जुड़ा हुआ है, क्योंकि यह सबसे अधिक संभावना वाला अगला कदम है।

इन गणनाओं के लिए, हम उपरोक्त (स्कोर अंतर, यार्ड लाइन, डाउन, दूरी, शेष समय, मूल वेगास लाइन) के समान इनपुट का उपयोग करते हैं और खेल के अंतिम 5 मिनट के भीतर इसे एक अलग मॉडल में प्लग करते हैं। वास्तविक परिणामों से अधिक निकटता से मिला।

चूंकि यह एनएफएल जीतने की संभावना पर दुनिया में हमारा पहला प्रयास है (एक ऐसा क्षेत्र जो अन्य, विशेष रूप सेब्रायन बर्क , कुछ समय के लिए कब्जा कर लिया है), हम पूरी तरह से उम्मीद करते हैं कि प्रश्न, टिप्पणियां और आलोचनाएं होंगी, भले ही हम ऊपर वर्णित संस्करण से आम तौर पर बहुत खुश हों। हमेशा की तरह, कृपयाकिसी भी प्रतिक्रिया के साथ हमें ईमेल करें, और यदि उपयुक्त हो तो हमें प्रतिक्रिया देने और/या सिस्टम में परिवर्तनों पर विचार करने में प्रसन्नता होगी।


[1] "एक फुटबॉल खेल जीतने की संभावना पर," अमेरिकी सांख्यिकीविद् 45, नहीं। 3 (अगस्त 1991): 179-83