Tuesday 16 January 2018

उदाहरण के- दोनों रेखीय प्रतिगमन और चलती - औसत और चौरसाई - तकनीक


चतुराई तकनीकों द्वारा पूर्वानुमान। यह साइट जावास्क्रिप्ट ई-लैब का एक हिस्सा है निर्णय लेने के लिए वस्तुओं सीखना इस श्रृंखला में अन्य जावास्क्रिप्ट इस पृष्ठ पर मेनू अनुभाग में अनुप्रयोगों के विभिन्न क्षेत्रों के अंतर्गत वर्गीकृत किया गया है। एक समय श्रृंखला अवलोकन की एक अनुक्रम है समय पर दिए गए आंकड़ों का अनुपालन समय के साथ लिया गया डेटा के संग्रह में कुछ यादृच्छिक भिन्नताओं का कोई रूप है यादृच्छिक भिन्नता के कारण प्रभाव को रद्द करने के तरीके मौजूद हैं व्यापक रूप से इस्तेमाल की जाने वाली तकनीकें चौरसाई होती हैं ये तकनीकों, जब ठीक से लागू होते हैं, तो अंतर्निहित प्रवृत्तियों को अधिक स्पष्ट रूप से पता चलता है । समय-सारणी पंक्ति-अनुसार अनुक्रम में बाएं-ऊपरी कोने से शुरू करें, और पैरामीटर, फिर एक-अवधि-आगे पूर्वानुमान प्राप्त करने के लिए गणना बटन पर क्लिक करें। ब्लैंक बॉक्स गणना में शामिल नहीं हैं, लेकिन शून्य हैं। डेटा-मैट्रिक्स में सेल से सेल तक जाने के लिए अपने डेटा को दर्ज करने में टैब कुंजी का उपयोग तीर या चाबियाँ दर्ज नहीं करते हैं। समय श्रृंखला के लक्षण, जो परीक्षार्थी द्वारा प्रकट हो सकता है पूर्वानुमानित मूल्यों के साथ अपने ग्राफ, और अवशिष्ट व्यवहार, स्थिति पूर्वानुमान मॉडलिंग. मविंग औसत समय की श्रृंखला के पूर्वप्रतिकरण के लिए सबसे लोकप्रिय तकनीकों के बीच चलती औसत रैंक, वे समय श्रृंखला बनाने के लिए, डेटा से यादृच्छिक सफेद शोर फ़िल्टर करने के लिए उपयोग किया जाता है चिकनी या यहां तक ​​कि समय श्रृंखला में निहित कुछ सूचनात्मक घटकों पर जोर देने के लिए। एक्सपेनियन्शियल स्माइंगिंग यह एक बहुत ही लोकप्रिय योजना है, जिसमे चलने की औसत में चल रही औसत सीरीज़ का उत्पादन होता है, अतीत के अवलोकनों को समान रूप से भारित किया जाता है, एक्सपेंनेलीय स्माउटिंग तीव्रता से कम होने वाले वजन को बढ़ाता है क्योंकि अवलोकन बड़े होता है दूसरे शब्दों में, हाल के अवलोकनों को पुरानी टिप्पणियों की तुलना में पूर्वानुमान में अपेक्षाकृत अधिक वजन दिया जाता है। डबल एक्सपोजेंशनल चौरसाई रुझानों को संभालने में बेहतर है। ट्रिपल एक्सपोजनल स्माथिंग parabola प्रवृत्तियों को संभालने में बेहतर है.एक चौरसाई स्थिरांक के साथ एक exponenentially भारित चलती औसत एक लगभग साधारण से मेल खाती है लंबाई की औसत चलती है I अवधि n, जहां ए और एन से संबंधित हैं। ए 2 एन 1 या एन 2 - ए। उदाहरण के लिए, उदाहरण के लिए, 1 एक्स के बराबर चौरसाई स्थिरता के साथ एक तेज भारित चल औसत, लगभग 1 9 दिन की औसत चलती है और एक 40 दिवसीय सरल चलती औसत 0-8878 के बराबर चौरसाई स्थिरता के साथ एक तीव्र भारित चल औसत पर लगभग अनुरूप होगा। हॉल की रैखिक घातीय चिकनाई मान लीजिए कि समय श्रृंखला गैर-मौसमी है लेकिन प्रदर्शन की प्रवृत्ति Holt के विधि का अनुमान है दोनों वर्तमान स्तर और मौजूदा प्रवृत्ति। नोट यह है कि साधारण चलती औसत 2-अल्फा अल्फा के पूर्णांक भाग को चलती औसत की अवधि निर्धारित करके घातीय चिकनाई का विशेष मामला है.अधिकतर व्यावसायिक डेटा के लिए 0 से 40 की तुलना में अल्फा पैरामीटर अक्सर प्रभावी हालांकि, 0 0 से 1 9 के साथ, 0 1 से 0 9 के साथ पैरामीटर स्पेस की ग्रिड सर्च कर सकती है, फिर 0 1 तब सबसे अच्छा अल्फ़ा में सबसे छोटा मतलब पूर्ण त्रुटि एमए त्रुटि होती है। कई चौरसाई तरीकों की तुलना करने के लिए यहां यद्यपि पूर्वानुमान तकनीक की सटीकता का आकलन करने के लिए संख्यात्मक संकेतक हैं, सबसे अधिक व्यापक दृष्टिकोण उनके सटीकता का आकलन करने के लिए कई पूर्वानुमानों के दृश्य तुलना का उपयोग करते हैं और विभिन्न पूर्वानुमान विधियों के बीच चयन करते हैं, इस दृष्टिकोण में, एक का प्रयोग करना चाहिए, जैसे कि एक ही ग्राफ पर एक्सेल एक समय श्रृंखला चर के वास्तविक मूल्य और कई विभिन्न पूर्वानुमान विधियों से अनुमानित मान, इस प्रकार एक दृश्य तुलना की सुविधा प्रदान करते हैं। आप पिछले तकनीक का उपयोग करके पिछली पूर्वानुमान मानों को प्राप्त करने के लिए पिछली भविष्यवाणियों का उपयोग करना पसंद कर सकते हैं, जो तकनीकों के आधार पर केवल एकल पैरामीटर का उपयोग करते हैं। होल्ट, और विंटर्स के तरीकों का इस्तेमाल क्रमशः दो और तीन मापदंडों में किया जाता है, इसलिए यह परीक्षण के द्वारा इष्टतम या निकटतम मूल्यों का चयन करने के लिए आसान नहीं है- और मापदंडों के लिए त्रुटियों। एकल घातीय चिकनाई लघु अवधि के परिप्रेक्ष्य पर जोर देती है स्तर को अंतिम अवलोकन के लिए सेट करता है और यह शर्त पर आधारित है कि कोई प्रवृत्ति नहीं है रैखिक पुनर्गठन आयन, जो ऐतिहासिक डेटा को कम से कम चौराहों को फिट करता है या ऐतिहासिक डेटा को बदलता है, लंबी अवधि का प्रतिनिधित्व करता है, जो कि मूल प्रवृत्ति पर आधारित है Holt रैखिक घातीय चिकनाई हाल के रुझान के बारे में जानकारी प्राप्त करता है Holt मॉडल में मापदंड स्तर-पैरामीटर है जब डेटा विविधता की मात्रा बड़ी हो, तब कम होनी चाहिए, और प्रवृत्तियों-पैरामीटर को बढ़ाया जाना चाहिए, यदि हाल की प्रवृत्ति दिशा में कुछ कारकों के कारण समर्थन किया जाता है। अल्पकालिक पूर्वानुमान नोटिस कि इस पृष्ठ पर प्रत्येक जावास्क्रिप्ट एक-चरण आगे प्रदान करता है पूर्वानुमान दो-चरण-पूर्व पूर्वानुमान प्राप्त करने के लिए पूर्वानुमानित मान को केवल समय के अंतराल डेटा के अंत में जोड़ें और फिर समान गणना बटन पर क्लिक करें आप आवश्यक प्रक्रिया को प्राप्त करने के लिए कुछ समय के लिए इस प्रक्रिया को दोहरा सकते हैं समय श्रृंखला के तरीकों। समय श्रृंखला के तरीकों सांख्यिकीय तकनीक है जो समय की अवधि में संचित ऐतिहासिक डेटा का उपयोग करती हैं समय श्रृंखला के तरीकों का मानना ​​है कि क्या हुआ है भविष्य में अतीत जारी रहेगा जैसे नाम का समय श्रृंखला बताती है, ये विधियां केवल एक कारक के पूर्वानुमान को संबंधित करती हैं - समय वे चलती औसत, घातीय चिकनाई, और रैखिक प्रवृत्ति रेखा को शामिल करते हैं और ये कम से कम सबसे लोकप्रिय तरीकों में से हैं सर्विस और मैन्युफैक्चरिंग कंपनियों के बीच भविष्यवाणी की जा रही है ये विधियों का मानना ​​है कि समय के साथ मांग के लिए पहचाने जाने योग्य ऐतिहासिक पैटर्न या रुझान खुद को दोहराएंगे। औसत औसत। एक समय श्रृंखला की भविष्यवाणी अगली अवधि में मांग की भविष्यवाणी करने के लिए वर्तमान अवधि में मांग का उपयोग करना जितना आसान हो सकती है इसे कभी-कभी एक भोला या सहज ज्ञान युक्त पूर्वानुमान कहा जाता है 4 उदाहरण के लिए, यदि मांग इस हफ्ते 100 इकाइयां है, तो अगले हफ्ते की मांग का पूर्वानुमान 100 इकाइयां है, यदि मांग 90 इकाइयों के बदले निकलती है, तो अगले हफ्ते की मांग 90 इकाइयां है , और इसी प्रकार इस प्रकार की भविष्यवाणी पद्धति में ऐतिहासिक मांग व्यवहार को ध्यान में नहीं रखा जाता है, यह केवल वर्तमान अवधि में मांग पर निर्भर करता है, यह सीधे सामान्य, यादृच्छिक रूप से प्रतिक्रिया करता है मांग में उल्लिखियां। साधारण चलती औसत विधि हाल के दिनों में पूर्वानुमान के विकास के लिए कई मांग मानों का उपयोग करती हैं, यह एक नस्ल के लिए यादृच्छिक वृद्धि और घट जाती है, जो केवल एक अवधि का उपयोग करता है, सरल चलती औसत के लिए उपयोगी है पूर्वानुमान की मांग जो स्थिर है और किसी भी स्पष्ट मांग व्यवहार को प्रदर्शित नहीं करती है, जैसे कि प्रवृत्ति या मौसमी पैटर्न। मॉल की औसत विशिष्ट अवधि के लिए गणना की जाती है, जैसे तीन महीने या पांच महीने, इस भविष्यवाणी पर निर्भर करता है कि मांगकर्ता डेटा कितना चिकना करना चाहता है अब चलती हुई औसत अवधि, चिकनी यह सरल चलती औसत की गणना के लिए फार्मूला होगा जो सरल मूविंग औसत पर निर्भर है। इन्स्टंट पेपर क्लिप ऑफिस सप्लाई कंपनी 50-मील के भीतर कंपनियों, स्कूलों और एजेंसियों को बेचती है और कार्यालय की आपूर्ति बेचती है। अपने गोदाम का त्रिज्या कार्यालय की आपूर्ति व्यापार प्रतिस्पर्धी है, और आदेश तुरंत देने की क्षमता नए ग्राहकों को प्राप्त करने और पुराने रखने में एक कारक है वे कार्यालय आमतौर पर आदेश नहीं देते हैं जब वे आपूर्ति पर कम चलाते हैं, लेकिन जब वे पूरी तरह से भागते हैं, परिणामस्वरूप, उन्हें तत्काल अपने आदेश की आवश्यकता होती है, कंपनी के प्रबंधक को कुछ पर्याप्त ड्राइवर बनाना चाहते हैं और वाहन तुरंत आदेश देने के लिए उपलब्ध हैं और उनके पास पर्याप्त है स्टॉक में इन्वेंट्री इसलिए, प्रबंधक अगले महीने के दौरान आने वाले आदेशों की संख्या की भविष्यवाणी करने में सक्षम होना चाहता है अर्थात वितरण की मांग का पूर्वानुमान देना। वितरण आदेशों के रिकॉर्ड से, प्रबंधन ने पिछले 10 महीनों के लिए निम्नलिखित डेटा जमा कर लिए हैं, जिसमें से वह 3- और 5-महीने की चलती औसत गणना करना चाहता है। हमें यह मान लें कि यह अक्टूबर का अंत है या तो 3- या 5 महीने की औसत चलती औसत से होने वाली पूर्वानुमान आम तौर पर अनुक्रम में अगले महीने के लिए है, जो इस मामले में नवंबर है चलती औसत निम्न क्रम के अनुसार अनुक्रम में पहले 3 महीनों के आदेश की मांग से गणना की जाती है। 5 महीने की चलती औसत जनसंपर्क से गणना की जाती है मांग आंकड़ों के अनुसार 5 महीनों के लिए निम्न प्रकार हैं: मांग आंकड़ों के सभी महीनों के लिए 3- और 5 महीने की औसत पूर्वानुमान चलाना निम्न तालिका में दिखाया गया है। वास्तव में, हाल ही में मासिक मांग के आधार पर केवल नवंबर के लिए पूर्वानुमान का उपयोग किया जाएगा प्रबंधक हालांकि, पूर्व महीनों के पूर्व पूर्वानुमान हमें वास्तविक मांग के साथ तुलना करने की अनुमति देता है ताकि भविष्यवाणी की पद्धति कितनी सटीक हो - यह है कि यह कितनी अच्छी तरह से करता है। तीन और पांच महीने का औसत। ऊपर दी गई तालिका वास्तविक डेटा में होने वाली परिवर्तनशीलता को सुचारू बनाने के लिए होती है यह चिकनाई प्रभाव निम्नलिखित आंकड़ों में देखा जा सकता है जिसमें मूल डेटा के ग्राफ़ पर 3-महीने और 5-महीने की औसत आरोपित किया गया है। 5 महीने पिछली आंकड़ों में औसत बढ़ते हुए 3 महीने की चलती औसत की तुलना में अधिक उतार-चढ़ाव को सुगम बनाता है हालांकि, 3 महीने की औसत अधिक निकटता कार्यालय आपूर्ति प्रबंधक के लिए उपलब्ध सबसे हाल के आंकड़ों को दर्शाता है सामान्य तौर पर, पूर्वानुमान जी की लंबी अवधि की चलती औसत धीमी गति से मांग में हाल के परिवर्तनों पर प्रतिक्रिया करने के लिए धीमी होती है, जो कि छोटी अवधि की चलती औसत का उपयोग करने वालों की तुलना में कम होती है डेटा की अतिरिक्त अवधियां गति को कम करती हैं जिसके साथ पूर्वानुमान उत्तर देता है कि चलती में उपयोग करने के लिए उचित अवधि की स्थापना करना औसत पूर्वानुमान में अक्सर कुछ परीक्षण-और-त्रुटि प्रयोग की आवश्यकता होती है। चलती औसत विधि का नुकसान यह है कि यह किसी कारण के लिए होने वाले बदलावों पर प्रतिक्रिया नहीं देता है, जैसे कि चक्र और मौसमी प्रभाव, परिवर्तन करने वाले कारक आमतौर पर उपेक्षित होते हैं मूल रूप से एक मैकेनिकल पद्धति है, जो एक सुसंगत तरीके से ऐतिहासिक डेटा को दर्शाती है हालांकि, चलती औसत विधि का उपयोग करने में आसान, त्वरित और अपेक्षाकृत सस्ती होने का लाभ होता है सामान्य तौर पर, यह विधि थोड़े समय के लिए एक अच्छी भविष्यवाणी प्रदान कर सकती है, लेकिन यह भविष्य में बहुत दूर धकेल नहीं होना चाहिए. हमेशा मूविंग औसत। चलती औसत विधि को डेटा में उतार-चढ़ाव को और अधिक बारीकी से प्रतिबिंबित करने के लिए समायोजित किया जा सकता है भारित चलती औसत विधि में, निम्न फार्मूले के अनुसार सबसे हाल के आंकड़ों को वजन सौंपा गया है। उदाहरण 10 3 के लिए तालिका में दिखाए गए प्रधानमंत्री कंप्यूटर सेवाओं की मांग डेटा बढ़ती रेखीय प्रवृत्ति का अनुसरण करता है कंपनी एक रैखिक की गणना करना चाहता है यह देखने के लिए कि क्या यह घातीय चिकनाई और समायोजित घातीय चिकनाई पूर्वानुमानों से अधिक सटीक है उदाहरण 10 3 और 10 में विकसित किया गया है। मूल्य निम्न वर्ग की गणना के लिए आवश्यक है: इन मानों का उपयोग करते हुए, रैखिक प्रवृत्ति लाइन के लिए पैरामीटर निम्नानुसार गणना की जाती है। इसलिए, रैखिक प्रवृत्ति रेखा का समीकरण है। अवधि 13 के पूर्वानुमान के लिए, रेखीय प्रवृत्ति लाइन में x 13 दें। निम्नलिखित आलेख वास्तविक डेटा की तुलना में रैखिक प्रवृत्ति रेखा दिखाता है प्रवृत्ति लाइन को प्रतिबिंबित होता है बारीकी से वास्तविक डेटा - जो कि एक अच्छी फिट है - और इस समस्या के लिए एक अच्छा पूर्वानुमान मॉडल होगा, हालांकि, रैखिक प्रवृत्ति रेखा का एक नुकसान यह है कि यह आडजू नहीं होगा प्रवृत्ति में बदलाव के लिए, जो कि घातीय चिकनाई पूर्वानुमान विधियों के रूप में होगा, यह माना जाता है कि सभी भविष्य के पूर्वानुमान एक सीधी रेखा का पालन करेंगे, यह इस पद्धति का उपयोग थोड़े समय सीमा के लिए सीमित करता है जिसमें आप अपेक्षाकृत निश्चित हो सकते हैं प्रवृत्ति में परिवर्तन नहीं होगा। मौसमी समायोजन। एक मौसमी पैटर्न एक दोहरावदार वृद्धि है और मांग में कमी होती है कई मांग वस्तुओं मौसमी व्यवहार प्रदर्शित करती हैं कपड़ों की बिक्री सालाना मौसमी पैटर्न का पालन करती है, गिरावट और सर्दी में बढ़ रही गर्म कपड़े की मांग और वसंत में गिरावट और गर्मियों में कूलर कपड़ों की बढ़ती मांग के कारण खिलौने, खेल उपकरण, कपड़े, इलेक्ट्रॉनिक उपकरण, हैम, टर्की, वाइन और फलों सहित कई खुदरा वस्तुओं की मांग, छुट्टियों के मौसम में वृद्धि, विशेष दिन जैसे ग्रीटिंग कार्ड की मांग बढ़ जाती है जैसे कि वेलेंटाइन दिवस और माँ दिवस मौसमी पैटर्न मासिक, साप्ताहिक, या यहां तक ​​कि दैनिक आधार पर भी हो सकते हैं कुछ रेस्तरां को ई दोपहर या दोपहर या सप्ताहांत के विरोध में सप्ताहांत के मुकाबले vening यातायात - इसलिए बिक्री - शॉपिंग मॉल में शुक्रवार और शनिवार तक होता है। समय श्रृंखला के पूर्वानुमान में मौसमी पैटर्न को प्रतिबिंबित करने के कई तरीके हैं हम एक सरल तरीके से वर्णन करेंगे मौसमी कारक एक मौसमी कारक एक संख्यात्मक मूल्य होता है जो सामान्य पूर्वानुमान से गुणा जाता है जो मौसम समायोजित पूर्वानुमान प्राप्त करता है। मौसमी कारकों की मांग विकसित करने के लिए एक विधि, प्रत्येक मौसमी अवधि की मांग को कुल वार्षिक मांग के अनुसार विभाजित करना है। फॉर्मूला के बाद। 0 और 1 0 के बीच होने वाले मौसमी कारक, प्रभावी रूप से, प्रत्येक सीजन को दी गई कुल वार्षिक मांग का हिस्सा हैं, इन मौसमी कारकों को वार्षिक अनुमानित मांग से गुणा किया जाता है, ताकि प्रत्येक सीज़नल एडजस्टमेंट के साथ पूर्वानुमान के लिए समायोजित पूर्वानुमान लगाया जा सके। वेस्टबोन फार्म तुर्की भर एक मांस प्रसंस्करण कंपनी को बेचने के लिए बढ़ता है हालांकि, इसका पीक सीजन स्पष्ट रूप से चौथी तिमाही के दौरान है वर्ष, अक्टूबर से दिसंबर तक, विशबोन फार्मों ने पिछले तीन वर्षों में टर्की के लिए निम्न तालिका में दिखाया है। क्योंकि हमारे पास तीन साल की मांग डेटा है, हम तीन वर्षों के लिए कुल त्रैमासिक मांग को विभाजित करके मौसमी कारकों की गणना कर सकते हैं पूरे तीन वर्षों में कुल मांग से। अगला, हम अगले वर्ष, 2000 की अनुमानित मांग को बढ़ाना चाहते हैं, प्रत्येक मौसमी कारकों द्वारा प्रत्येक तिमाही की अनुमानित मांग प्राप्त करने के लिए, इसे पूरा करने के लिए, हमें 2000 में मांग पूर्वानुमान की आवश्यकता है इस मामले में, तालिका में मांग डेटा आम तौर पर बढ़ती प्रवृत्ति को प्रदर्शित करने के लिए लगता है, हम एक अनुमान के अनुमान के लिए तालिका में तीन साल के डेटा के लिए एक रैखिक प्रवृत्ति लाइन की गणना करते हैं। इस प्रकार, 2000 के पूर्वानुमान के लिए 58 17, या 58,170 टर्की। मांग के इस वार्षिक पूर्वानुमान का उपयोग करते हुए, मौसम के अनुकूल समायोजित पूर्वानुमान, 2000 के लिए एसएफ़ I, इन त्रैमासिक पूर्वानुमानों को तालिका में वास्तविक मांग मानों के साथ मिलते हैं, वे अपेक्षाकृत अच्छा पूर्वानुमान अनुमान लगते हैं साथियों, डेटा में मौसमी बदलाव और सामान्य ऊपर की प्रवृत्ति दोनों को दर्शाती है। 10-12 चलती औसत विधि घातीय चिकनाई के समान है। 10-13 घातीय चौरसाई मॉडल पर क्या असर पड़ता है, चिकनाई लगातार बढ़ जाती है। 10-14 घाटेदार चौरसाई से समायोजित कैसे समायोजित करता है घाटेदार चौरसाई से भिन्न होता है। 10-15 क्या एक समायोजित घातीय चिकनाई मॉडल में प्रवृत्ति के लिए चौरसाई स्थिरता का विकल्प निर्धारित करता है। 10-16 समय श्रृंखला के तरीकों के अध्याय के उदाहरणों में, प्रारंभिक पूर्वानुमान हमेशा माना जाता था पहली अवधि में वास्तविक मांग के समान ही अन्य तरीकों से सुझाव दें कि शुरुआती पूर्वानुमान वास्तव में उपयोग में लाया जा सकता है। 10-17 रेखीय प्रवृत्ति लाइन पूर्वानुमान मॉडल कैसे पूर्वानुमान के लिए एक रेखीय प्रतिगमन मॉडल से भिन्न होता है। 10-18 समय श्रृंखला में इस अध्याय में प्रस्तुत मॉडल, चलती औसत और भारित चलती औसत, घातीय चौरसाई और समायोजित घातीय चिकनाई, और रैखिक प्रवृत्ति लाइन, जिसमें आप एक सबसे अच्छा क्यों नं। 10-19 क्या फायदे घाटेदार चौरसाई समायोजित करता है पूर्वानुमानित मांग के लिए एक रैखिक प्रवृत्ति रेखा से अधिक होती है जो प्रवृत्ति दर्शाती है। 4 KB क्हान और जेटी मनेजर, उपभोक्ता और औद्योगिक बाजारों में पूर्वानुमान, व्यापार जर्नल ऑफ जर्नलिंग 14, नहीं 2 ग्रीष्मकालीन 1 99 2 21-28। लीडर रिग्रेस विश्लेषण सभी सांख्यिकीय तकनीकों का सबसे अधिक व्यापक रूप से प्रयोग किया जाता है, यह चर के बीच रैखिक योजक संबंधों का अध्ययन है, चलो Y को निर्भर चर को दर्शाता है जिसका मूल्य आप अनुमानित करना चाहते हैं, और एक्स 1 एक्स एक्स कश्मीर स्वतंत्र चर जिसमें से आप इसे भविष्यवाणी करना चाहते हैं, एक्स की वैल्यू एक्स के मूल्य के साथ या डेटा सेट के पंक्ति में टी एक्स में दर्शाया जाता है। फिर ये वाई के भविष्य के मूल्य की गणना करने के लिए समीकरण है। यह सूत्र है संपत्ति जो वाई के लिए भविष्यवाणी एक्स चर के प्रत्येक सीधा-लाइन फ़ंक्शन है, जो दूसरों को स्थिर रखती है, और भविष्यवाणियों के लिए अलग-अलग एक्स चर का योगदान जोड़ती है उनके व्यक्तिगत सीधे- वाई के साथ लाइन रिश्ते स्थिरांक हैं, बी 1 बी 2,, बीके तथाकथित वेरिएबल्स के तथाकथित गुणांक, द्वि यह है कि एक्स में परिवर्तन की प्रति इकाई वाई के अनुमानित मूल्य में बदलाव I अन्य चीजें समान होती हैं अतिरिक्त स्थिर ब 0 तथाकथित अवरोधन भविष्यवाणी है कि अगर मॉडल संभव हो तो सभी एक्स शून्य होंगे यदि संभव हो तो गुणांक और अवरोधन का अनुमान है कि उन्हें कम से कम चौराह मिले, यानी उन अद्वितीय मूल्यों के बराबर सेट करें, जिनके बीच में चुकता त्रुटियों का योग कम हो। मॉडल का नमूना जिसमें मॉडल उपयुक्त है और मॉडल की भविष्यवाणी त्रुटियों को आम तौर पर स्वतंत्र रूप से मान लिया जाता है और समान रूप से सामान्य रूप से वितरित किया जाता है। रैखिक प्रतिगमन के बारे में आपको पहली बात जानना चाहिए कि कैसे अजीब शब्द प्रतिगमन मॉडल पर लागू किया गया था यह पहली बार 1 9वीं शताब्दी के वैज्ञानिक द्वारा गहराई में अध्ययन किया गया, सर फ्रांसिस गैलटन गैल्टन एक स्व-सिखाया प्रकृतिवादी, मानवविज्ञानी, खगोलविद और सांख्यिकीविद् थे - और एक वास्तविक जीवन इंडियाना जोन्स चरित्र वह अपने अन्वेषण के लिए प्रसिद्ध थे, और उन्होंने जंगली स्थानों में दी आर्ट ऑफ़ ट्रैवल शिफ्ट्स एंड कंटिविविन्स्स ऑफ़ दी जंगल में जंगल में जीवित रहने के लिए एक सर्वश्रेष्ठ बेच पुस्तक लिखी, और इसकी अगली कड़ी, द आर्ट ऑफ रौफ ट्रैवल टू द प्रैक्टिकल टू द पेसिलियर वे अभी भी प्रिंट में हैं और अभी भी उपयोगी संसाधनों के रूप में माना जाता है वे ज़िंदा रहने के लिए कई आसान संकेत प्रदान करते हैं - जैसे कि भाले के घावों का इलाज करना या जल्दी से अपने घोड़े को निकालने के लिए - और सोविंग बैग की अवधारणा को पश्चिमी दुनिया में क्लिक करें अधिक विवरणों के लिए ये चित्र। गॉलटन विज्ञान के कई शाखाओं में माप के लिए सांख्यिकीय तरीकों के आवेदन में अग्रणी था, और माता-पिता के रिश्तेदार आकार और पौधों और जानवरों की विभिन्न प्रजातियों में उनके संतों के आंकड़ों का अध्ययन करने में, उन्होंने निम्नलिखित घटनाओं को देखा। बड़े-से-औसत माता-पिता, औसत-से-अधिक-औसत बच्चे का उत्पादन करने की आदत रखते हैं, परन्तु अपने स्वयं के जनरेशन के भीतर अपने रिश्तेदार पद के अनुसार बच्चे को माता-पिता की तुलना में कम बड़ा होने की संभावना है n इस प्रकार, उदाहरण के लिए, अगर माता-पिता का आकार अपनी पीढ़ी के भीतर से मतलब से मानक विचलन है, तो आपको भविष्यवाणी करनी चाहिए कि बच्चे का आकार आरएक्स आर होगा, एक्स मानक विचलन मतलब से उन बच्चों के सेट में माता-पिता, जहां r एक परिमाण में एक से कम संख्या है, वह नीचे वर्णित होगा कि माता-पिता के आकार और बच्चे के आकार के बीच के संबंध, वस्तुतः किसी भी भौतिक माप और मनुष्यों के मामले में यह सच है, संज्ञानात्मक और शारीरिक क्षमता के अधिकांश मापन जो माता-पिता और उनके संतानों पर किया जा सकता है 1877 में गॉलटन द्वारा प्रस्तुत व्याख्यान में, इस प्रभाव को दर्शाते हुए एक प्रतिगमन रेखा का पहला प्रकाशित चित्र है। इस चार्ट पर आर प्रतीक जिसका मूल्य 0 33 है ढलान गुणांक को दर्शाता है, सहसंबंध नहीं है, हालांकि दोनों समान हैं यदि दोनों आबादी में एक ही मानक विचलन है, जैसा कि नीचे दिखाया जाएगा। गैलन ने इस घटना को सामान्यता के प्रति प्रतिगमन कहा जो कि आधुनिक पूर्व शब्दों का मतलब यह है कि एक ना पर्यवेक्षक के लिए एक प्रतिगमन यह सुझाव दे सकता है कि बाद में पीढ़ी कम परिवर्तनशीलता को प्रदर्शित करने जा रहे हैं - शाब्दिक रूप से अधिक सामान्यता - पहले वाले की तुलना में, लेकिन यह मामला नहीं है यह पूरी तरह से सांख्यिकीय घटना है जब तक कि प्रत्येक बच्चे माता-पिता के समान संदर्भ के अनुसार समान आकार के समान अर्थात् जब तक कि संबंध 1 के बराबर नहीं होता है, तब तक भविष्यवाणी को जीव विज्ञान की परवाह किए बिना मतलब वापस जाना चाहिए अगर मतलब चुकता त्रुटि को कम किया जाए पृष्ठ के शीर्ष पर लौटें। जीवन का एक अपरिहार्य तथ्य है आपके बच्चों को उम्मीद है कि आप बेहतर या उससे भी बदतर होने के लिए कम असाधारण होने की उम्मीद कर सकते हैं, एक कोर्स में अंतिम परीक्षा में आपका स्कोर कम से कम या मध्यावधि परीक्षा में आपके स्कोर की तुलना में खराब होने की उम्मीद की जा सकती है शेष वर्ग सीज़न के दूसरे छमाही में एक बेसबॉल खिलाड़ी की बल्लेबाजी औसत सीजन के पहले छमाही में सभी बल्लेबाजों की तुलना में सभी खिलाड़ियों के लिए मतलब के करीब होने की उम्मीद की जा सकती है और इसलिए यहां कुंजी शब्द उम्मीद है इसका मतलब यह नहीं है कि यह निश्चित है कि प्रतिगमन का मतलब होगा, लेकिन यह शर्त लगाने का तरीका होगा। हमने पहले से कुछ समय-सीमा पूर्वानुमान वाले भविष्यवाणियों में अध्ययन किया है जो हमने पहले ही देखा है। पूर्वानुमान के भूखंड चिकना होते हैं - वे मूलभूत डेटा के भूखंडों की तुलना में कम परिवर्तनशीलता प्रदर्शित करते हैं यह यादृच्छिक चलने के मॉडल के बारे में सच नहीं है, लेकिन आम तौर पर चलती-औसत मॉडल और अन्य मॉडलों के बारे में सच है जो कि उनके अनुमानों को आधार देते हैं एक से अधिक पिछले अवलोकन। प्रतिगमन प्रभाव के लिए सहज ज्ञान युक्त स्पष्टीकरण सरल है, हम जो भविष्य में भविष्यवाणी करने का प्रयास कर रहे हैं, आम तौर पर एक अनुमानी घटक सिग्नल और एक सांख्यिकीय स्वतंत्र अप्रत्याशित घटक शोर होता है सबसे अच्छा हम उम्मीद कर सकते हैं कि केवल उस भाग का अनुमान लगाया जाए परिवर्तनशीलता जो संकेत के कारण होती है इसलिए हमारे पूर्वानुमान वास्तविक मूल्यों की तुलना में कम परिवर्तनशीलता प्रदर्शित करते हैं, जो मतलब के प्रति प्रतिगमन का मतलब है। प्रतिगमन प्रभाव के बारे में सोचने का एक और तरीका है चयन पूर्वाग्रह के सामान्य रूप से किसी भी समय की अवधि में किसी खिलाड़ी का प्रदर्शन कौशल और किस्में के संयोजन के लिए जिम्मेदार ठहराया जा सकता है मान लीजिए कि हम उन पेशेवर एथलीटों का एक नमूना चुनते हैं जिनके प्रदर्शन औसत से बेहतर थे या जिनके ग्रेड बेहतर थे साल के पहले छमाही में औसत यह तथ्य है कि उन्होंने वर्ष की पहली छमाही में इतनी अच्छी तरह से किया था कि यह संभव है कि दोनों अपने कौशल और उनके भाग्य उस अवधि के दौरान औसत से बेहतर थे वर्ष के दूसरे छमाही में हम उन्हें उम्मीद कर सकते हैं समान रूप से कुशल होने के लिए, लेकिन हमें उन्हें समान रूप से भाग्यशाली होने की उम्मीद नहीं करनी चाहिए ताकि हमें भविष्यवाणी करनी चाहिए कि दूसरे छमाही में उनके प्रदर्शन का मतलब करीब से होगा, जो खिलाड़ियों का प्रदर्शन पहली छमाही में औसत था शायद कौशल और शुभकामना उनके लिए विपरीत दिशाओं में, इसलिए हम दूसरे छमाही में अपने प्रदर्शन को अपेक्षा से एक दिशा या किसी अन्य से दूर जाने की उम्मीद कर रहे हैं, क्योंकि हमें एक और स्वतंत्र परीक्षा मिलती है उनके कौशल हम नहीं जानते हैं कि वे किस दिशा में आगे बढ़ेंगे, हालांकि, उनके लिए भी हमें भविष्यवाणी करनी चाहिए कि उनके दूसरे छमाही का प्रदर्शन उनके पहले छमाही प्रदर्शन की तुलना में करीब होगा, हालांकि, खिलाड़ियों की वास्तविक प्रदर्शन की उम्मीद की जानी चाहिए पहले छमाही के रूप में वर्ष की दूसरी छमाही में समान रूप से एक बड़ा विचरण होता है, क्योंकि यह पहले के समान कौशल के समान वितरण वाले खिलाड़ियों के बीच स्वतंत्र रूप से यादृच्छिक किस्मत के पुनर्वितरण से परिणामस्वरूप होता है। व्यापक में मतलब के लिए प्रतिगमन की एक अच्छी चर्चा सामाजिक विज्ञान अनुसंधान का संदर्भ यहां पाया जा सकता है पृष्ठ के शीर्ष पर लौटें.गुणगमन मान्यताओं के लिए जस्टिफ़िकेशन। हमें क्यों मानना ​​चाहिए कि चर के बीच संबंध रैखिक हैं.क्योंकि रैखिक संबंध सरलतम तुच्छ संबंध हैं जो कि सोचा जा सकता है कि काम करने में सबसे आसान साथ, और. क्योंकि हमारे चर के बीच सच्चे संबंध अक्सर कम से कम मूल्यों की सीमा के ऊपर लगभग रेखीय होते हैं जो ब्याज के हैं हमारे लिए, और भी। भले ही वे नहीं कर रहे हों, हम अक्सर वेरिएबल्स को इस तरह से बदल सकते हैं कि रिश्तों को रेखांकित करते हैं। यह एक मजबूत धारणा है, और प्रतिगमन मॉडलिंग में पहला कदम चर के स्कैटरप्लेट और समय श्रृंखला डेटा के मामले में, चर बनाम प्लॉट समय, सुनिश्चित करने के लिए यह उचित है कि एक प्राथमिकता है और एक मॉडल को फिटिंग के बाद, त्रुटियों के भूखंडों का अध्ययन किया जाना चाहिए कि यह देखने के लिए कि क्या कोई अस्पष्टीकृत नॉनलाइनर पैटर्न नहीं है यह विशेष रूप से महत्वपूर्ण है जब लक्ष्य ऐतिहासिक डेटा की सीमा के बाहर परिदृश्यों के लिए भविष्यवाणी करना है, जहां सही रैखिकता से प्रस्थान का सबसे बड़ा असर होने की संभावना है यदि आप नॉनलाइन संबंधों का प्रमाण देखते हैं, तो यह संभव है कि गारंटी की नहीं कि वेरिएबल के परिवर्तन उनको सीधे में निकाल देंगे एक तरीका है जो रैखिक प्रतिगमन के माध्यम से उपयोगी जानकारी और भविष्यवाणियां उत्पन्न करेगा पृष्ठ के शीर्ष पर लौटें.और हमें क्यों यह मानना ​​चाहिए कि एक्सपीसी पर विभिन्न स्वतंत्र चर का असर आश्रित चर के टेड मूल्य जोड़युक्त होते हैं यह एक बहुत मजबूत धारणा है, जो अधिकांश लोगों का एहसास होता है, इससे मजबूत होता है इसका मतलब है कि एक स्वतंत्र चर का सीमांत असर अर्थात इसका ढलान गुणांक अन्य स्वतंत्र चर के वर्तमान मूल्यों पर निर्भर नहीं है लेकिन यह क्यों नहीं चाहिए यह कल्पनीय है कि एक स्वतंत्र चर एक दूसरे के प्रभाव को बढ़ा सकता है, या इसके प्रभाव समय-समय पर व्यवस्थित रूप से भिन्न हो सकते हैं एक कई प्रतिगमन मॉडल में, किसी दिए गए स्वतंत्र चर का अनुमानित गुणांक माना जाता है कि अन्य की उपस्थिति के लिए नियंत्रित करते हुए इसका प्रभाव उसके अनुरूप होता है जिस तरह से नियंत्रण किया जाता है वह अन्य चर के अत्यंत सरल गुणकों को केवल जोड़ या घटाया जाता है। कई उपयोगकर्ता इस मुद्दे के बारे में ध्यान से बिना मॉडल में बहुत से स्वतंत्र चर को फेंक देते हैं, जैसे कि उनके सॉफ़्टवेयर स्वचालित रूप से सही तरीके से यह पता लगाएंगे कि वे संबंधित हैं यह यहां तक ​​कि यहां तक ​​कि स्वचालित मॉडल-चयन विधियों, जैसे कि चरण-वार regre एसएसियन के लिए आपको अपने डेटा की अच्छी समझ है और विश्लेषण में मार्गदर्शक मार्गदर्शक का उपयोग करने की आवश्यकता होती है, वे वे दिए गए चर के साथ ही काम करते हैं, जो उन्हें दिया जाता है, और फिर वे केवल रेखीय, additive पैटर्न के लिए ही दिखते हैं एक दूसरे के संदर्भ में उन्हें एक प्रतिगमन मॉडल केवल यह नहीं मानता कि वाई कुछ एक्स का कुछ कार्य है यह मानता है कि यह एक्स के एक विशेष प्रकार का कार्य है एक आम अभ्यास में स्वतंत्र चर शामिल हैं, जिनके भविष्यवाणिक प्रभाव तार्किक रूप से योगात्मक नहीं हो सकते हैं, कहते हैं, कुछ जो योग और अन्य हैं जो कि दर या प्रतिशत हैं, कभी-कभी यह स्थानीय पहले-ऑर्डर-सन्निकटन तर्कों द्वारा तर्कसंगत किया जा सकता है, और कभी-कभी यह टी। आपको प्रासंगिक आंकड़ों को इकट्ठा करने की आवश्यकता है, यदि आवश्यक हो तो साफ करें, किसी भी मॉडल को फिट करने से पहले पैटर्न ढूंढने के लिए वर्णनात्मक विश्लेषण करें और बाद में मॉडल मान्यताओं के नैदानिक ​​परीक्षणों का अध्ययन करें, विशेषकर आंकड़े और त्रुटियों के भूखंडों को भी आपको चाहिए एक additive भविष्यवाणी समीकरण समझ में आता है या नहीं, यह निर्धारित करने के लिए उचित आर्थिक या भौतिक तर्क लागू करने की कोशिश करें यहां भी, यह संभव है कि वे चर के परिवर्तन या अंतःक्रिया की शर्तों को शामिल करने से उनके प्रभाव को एक additive के रूप में अलग किया जा सकता है, यदि वे नहीं करते हैं इस तरह के एक फार्म के साथ शुरू होता है, लेकिन इसके लिए आपकी ओर से कुछ सोचा और प्रयास की आवश्यकता होती है पृष्ठ के शीर्ष पर लौटें.और हमें क्यों लगता है कि रैखिक मॉडल की त्रुटियां स्वतंत्र रूप से होती हैं और समान रूप से आम तौर पर वितरित की जाती हैं .1 इस धारणा को अक्सर अपील आँकड़ों की केन्द्रीय सीमा प्रमेय, जिसमें कहा गया है कि पर्याप्त यादृच्छिक चर की एक बड़ी संख्या के योग या औसत - जो भी उनकी व्यक्तिगत वितरण - एक सामान्य वितरण तक पहुंचता है व्यापार और अर्थशास्त्र और इंजीनियरिंग और प्राकृतिक विज्ञान में बहुत अधिक डेटा प्राप्त होता है कई अलग-अलग व्यक्तियों या उत्पादों या स्थानों या समय के आधार पर किए गए संख्यात्मक माप को जोड़ना या जोड़ना जैसा कि मापें उत्पन्न करने वाली गतिविधियों को कुछ हद तक बेतरतीब ढंग से और कुछ हद तक स्वतंत्र रूप से हो सकता है, हम उम्मीद कर सकते हैं कि योग या औसत में भिन्नता कुछ सामान्य रूप से वितरित की जाती है। 2 यह फिर से गणितीय रूप से सुविधाजनक है, इसका मतलब यह है कि रैखिक मॉडल के लिए इष्टतम गुणांक अनुमान वे हैं जो औसत स्क्वायर त्रुटि को कम करते हैं जो आसानी से गणना की जाती हैं, और यह वितरण के सामान्य परिवार के आधार पर सांख्यिकीय परीक्षणों के उपयोग को उचित ठहराता है इस परिवार में टी वितरण, F वितरण और ची-स्क्वायर वितरण शामिल है। 3। यहां तक ​​कि अगर असली त्रुटि प्रक्रिया डेटा की मूल इकाइयों के संदर्भ में सामान्य नहीं है, तो संभव है कि डेटा को बदल दिया जा सके ताकि आपके मॉडल की भविष्यवाणी की त्रुटियां लगभग सामान्य हों। लेकिन यहां बहुत सावधानी का उपयोग किया जाना चाहिए भले ही अस्पष्टीकृत रूपांतर निर्भर चर में लगभग सामान्य रूप से वितरित किया जाता है, यह गारंटी नहीं है कि वे समान रूप से आम तौर पर वितरित होंगे स्वतंत्र चर के सभी मूल्यों के लिए टेड शायद दूसरों की तुलना में कुछ स्थितियों में अस्पष्टीकृत रूपांतर बड़े होते हैं, जैसे हाटेरोसेसात्मकता के रूप में जाना जाने वाला एक शर्त उदाहरण के लिए, अगर निर्भर चर में दैनिक या मासिक कुल बिक्री होती है, तो संभवत: दिन-प्रति-सप्ताह के पैटर्न या मौसमी पैटर्न ऐसे मामलों में कुल योग का दिन अधिक या अधिक व्यावसायिक गतिविधियों वाले मौसमों में बड़ा होगा - केंद्रीय सीमा प्रमेय का एक और परिणाम, लॉगिंग और या मौसमी समायोजन जैसे परिवर्तनीय परिवर्तन अक्सर इस समस्या से निपटने के लिए उपयोग किया जाता है यह भी गारंटी नहीं है कि यादृच्छिक भिन्नताएं सांख्यिकीय रूप से स्वतंत्र होंगी यह एक विशेष रूप से महत्वपूर्ण सवाल है जब डेटा सही समय पर निर्दिष्ट नहीं होता है, तो डेटा में समय-सीमा होती है, यह संभव है कि लगातार त्रुटियों या त्रुटियों को कुछ अन्य संख्याओं से विभाजित किया गया हो एक व्यवस्थित प्रवृत्ति के समान संकेत या एक व्यवस्थित प्रवृत्ति के विपरीत संकेत हैं, एक phenome स्व-संबंध या सीरियल सहसंबंध के रूप में जाना जाता नहीं। एक बहुत ही महत्वपूर्ण विशेष प्रकार का स्टॉक मूल्य आंकड़ा है जिसमें पूर्ण परिवर्तन के बजाय प्रतिशत परिवर्तन सामान्य रूप से वितरित होते हैं इसका मतलब है कि मध्यम से बड़े समय के पैमाने पर, स्टॉक की कीमतों में आंदोलनों को असामान्य रूप से वितरित किया जाता है आम तौर पर वितरित किए जाने से एक लॉग परिवर्तन आमतौर पर विकास और अस्थिरता का अध्ययन करते समय ऐतिहासिक स्टॉक मूल्य डेटा पर लागू होता है सावधानी हालांकि साधारण प्रतिगमन मॉडल अक्सर बीटा का अनुमान लगाने के लिए ऐतिहासिक स्टॉक रिटर्न के लिए फिट होते हैं, जो विविध पोर्टफोलियो के संदर्भ में सापेक्ष जोखिम के संकेत हैं I यह अनुशंसा नहीं करें कि आप भविष्य के शेयर रिटर्न की भविष्यवाणी करने के लिए प्रतिगमन का उपयोग करें इसके बजाय ज्यामितीय यादृच्छिक चलना पृष्ठ देखें। आप अभी भी सोच सकते हैं कि स्टॉक के पोर्टफोलियो के मूल्यों में भिन्नता सामान्य रूप से वितरित की जाती है, केंद्रीय सीमा प्रमेय के आधार पर, लेकिन केंद्रीय सीमा प्रमेय वास्तविक रूप से असामान्य रूप से धीमी है, जो तर्कसंगत distr पर काटता है ibution क्योंकि यह बहुत ही विषम रूप से लंबे समय तक पूंछ है 10 या 20 की एक स्वतंत्र और समान रूप से असामान्य रूप से वितरित वैरिएबल का एक वितरण है जो अभी भी काफी असामान्य है यदि आप इस पर विश्वास नहीं करते हैं, तो मोंटे कार्लो सिमुलेशन द्वारा इसे जांचने का प्रयास करें I था.क्योंकि रेखीय प्रतिगमन रेखीय की धारणाएं, सामान्य रूप से वितरित त्रुटियों वाली आईआईडी के साथ योजक रिश्तों को इतनी ताकतवर हैं, जब मॉडल उपयुक्त हैं, तो परीक्षा के मॉडल-मान्यताओं के पृष्ठ पर अधिक विस्तार से चर्चा की गई एक विषय और सचेत होने पर, उनकी वैधता का परीक्षण करना बहुत महत्वपूर्ण है संभावना है कि आपको अपने उद्देश्यों को पूरा करने के लिए अधिक या बेहतर डेटा की आवश्यकता हो सकती है आप कुछ भी नहीं से कुछ भी प्राप्त कर सकते हैं सभी बार-बार, प्रतिगमन विश्लेषण के उपयोगकर्ता इसे एक ब्लैक बॉक्स के रूप में देखते हैं जो कि किसी भी अन्य चर से स्वचालित रूप से किसी भी चर का अनुमान लगा सकता है इसे खिलाया जाता है, जब वास्तव में एक प्रतिगमन मॉडल एक बहुत ही खास और बहुत ही पारदर्शी प्रकार की भविष्यवाणी बॉक्स है इसका आउटपुट में अधिक जानकारी नहीं है इसकी जानकारी द्वारा प्रदान की जाती है, और इसकी आंतरिक तंत्र को वास्तविकता से प्रत्येक परिस्थिति में तुलना की जानी चाहिए जहां इसे लागू किया जाता है पृष्ठ के शीर्ष पर लौटें। सहसंबंध और सरल प्रतिगमन फ़ार्मुला। एक चर परिभाषा के अनुसार, एक माप जो एक माप से भिन्न हो सकती है एक अन्य परिस्थितियों में जहां अलग-अलग नमूने जनसंख्या से ली जाती हैं या टिप्पणियां समय के विभिन्न बिंदुओं पर बनाई जाती हैं फिटिंग सांख्यिकीय मॉडल में कुछ चर का इस्तेमाल दूसरों के भविष्यवाणी के लिए किया जाता है, हम जो उम्मीद कर रहे हैं वह है कि विभिन्न चर एक स्वतंत्र रूप से भिन्न नहीं होते हैं सांख्यिकीय समझ, लेकिन वे एक साथ भिन्न होते हैं। विशेष रूप से, जब रैखिक मॉडल फिटिंग करते हैं, तो हमें उम्मीद है कि एक चर का कहना है कि, Y एक अन्य चर के सीधी रेखा के कार्य के रूप में अलग है, एक्स कहते हैं, दूसरे शब्दों में, अगर अन्य सभी संभवत: प्रासंगिक चर को तय किया जा सकता है, हम वाई वर्क्स एक्स का ग्राफ अपरिहार्य यादृच्छिक त्रुटियों या शोर के अलावा एक सीधी रेखा के रूप में खोजना चाहते हैं। वारिया की पूर्ण मात्रा का एक माप एक वैरिएबल में गतिशील रूप से इसका विचरण स्वाभाविक रूप से इसका विचरण होता है जो अपने औसत से चुकता विचलन के रूप में परिभाषित किया जाता है, अपने स्वयं के मतलब से समतुल्य, हम मानक विचलन के संदर्भ में परिवर्तनशीलता को माप सकते हैं, जिसे विचरण के वर्गमूल के रूप में परिभाषित किया जाता है मानक विचलन का फायदा यह है कि वर्ग की इकाइयों के बजाय मूल चर के समान इकाइयों में मापा जाता है। वाई का अनुमान लगाने में हमारा काम कुछ या सभी विचरणों को समझाने के रूप में वर्णित किया जा सकता है- यानी किन स्थितियों में या इसके नीचे क्या स्थितियां हैं, इसका मतलब क्या है यह निरंतर नहीं है, यह है कि, हम सार्थक भविष्य कहनेवाले मॉडल टी कॉन्स्टेंट में सुधार करने में सक्षम होना चाहते हैं, जिसमें निरंतर के लिए सबसे अच्छा मूल्य संभवतः Y का ऐतिहासिक अर्थ है और अधिक सटीक है, हम एक मॉडल ढूंढने की आशा करते हैं जिनकी पूर्वानुमान की त्रुटियां भविष्य के लिए रैखिक मॉडल का उपयोग करते हुए, यह बहुत आसान है कि ब्याज के केवल आंकड़े कम से कम एफ या समेकित त्रुटि को कम करने के लिए गुणांक का आकलन करने के उद्देश्य प्रत्येक वेरिएबल का मतलब और भिन्नता और वेरिएबल के प्रत्येक जोड़ी के बीच सहसंबंध गुणांक हैं X और Y के बीच के संबंध के गुणांक को सामान्यतः आर XY द्वारा दर्शाया जाता है और यह रेखीय संबंधों की ताकत को मापता है। उन्हें 1 से 1 के सापेक्ष अर्थहीन पैमाने पर कहते हैं, यह उस हद तक उपाय करता है, जिसमें एक रेखीय मॉडल का इस्तेमाल एक चर के विचलन के भविष्यवाणी के लिए किया जा सकता है, जो कि इसके मतलब से दूसरे के विचलन के ज्ञान से संबंधित है समय पर बिंदु। सहसंबंध गुणांक सबसे आसानी से गणना की जाती है अगर हम पहले चर को मानकीकृत करते हैं, जिसका मतलब है कि उन्हें मानक विचलन-से- the - मतलब की इकाइयों में बदलना, नमूना मानक विचलन के बजाय जनसंख्या मानक विचलन का उपयोग करना, अर्थात वह आंकड़ा जिसकी सूत्र में एन -10 के बजाय एनओआईएनएनेटर की जगह है, जहां n नमूना आकार है एक्स के मानकीकृत संस्करण को एक्स द्वारा चिह्नित किया जाएगा और इसकी कीमत अवधि में इसका अर्थ होगा Excel संकेतन में परिभाषित किया गया है। STDEV P आबादी मानक विचलन के लिए एक्सेल फ़ंक्शन है यहां और कहीं और मैं एक्सेल फ़ंक्शंस का उपयोग करने के लिए कुछ सूत्रों में पारंपरिक गणित प्रतीकों का उपयोग करने जा रहा हूं, उदाहरण के लिए कि यह कैसे स्प्रेडशीट पर गणना की जाएगी उदाहरण के लिए, मान लीजिए कि औसत X 20 और STDEV PX 5 यदि एक्स टी 25, तो एक्स टी 1, यदि एक्स टी 10 तो एक्स टी -2, और इसी तरह वाई वाई के समान मानकीकृत मूल्य को दर्शाएगा। अब, सहसंबंध गुणांक एन अवलोकनों के दिए नमूने के भीतर दो चर के मानकीकृत मानों के औसत उत्पाद के बराबर है। उदाहरण के लिए, उदाहरण के लिए, यदि एक्स और वाई एक स्प्रेडशीट पर कॉलम में संग्रहीत किए जाते हैं, तो आप गणना के लिए औसत और STDEV P फ़ंक्शन का उपयोग कर सकते हैं their averages and population standard deviations, then you can create two new columns in which the values of X and Y in each row are computed according to the formula above Then create a third new column in which X is multiplied by Y in every row The average of the values in the last column is the correlation between X and Y Of course, in Excel, you can just use the formula CORREL X, Y to calculate a correlation coefficient, where X and Y denote the cell ranges of the data for the variables Note in some situations it might be of interest to standardize the data relative to the sample standard deviation, which is STDEV S in Excel, but the population statistic is the correct one to use in the formula above Return to top of page. If the two variables tend to vary on the same sides of their respective means at the same time, then the average product of their deviations and hence the correlation between them will be positive since the product of two numbers with the same sign is positive Conversely, if they tend to vary on opposite sides of their respective means at the same time, their correlation will be negative If they vary independently with respect to their means--that is, if one is equally likely to be above or below its mean regardless of what t he other is doing--then the correlation will be zero And if Y is an exact linear function of X, then either Y t X t for all t or else Y t - X t for all t in which case the formula for the correlation reduces to 1 or -1.The correlation coefficient can be said to measure the strength of the linear relationship between Y and X for the following reason The linear equation for predicting Y from X that minimizes mean squared error is simply. Thus, if X is observed to be 1 standard deviation above its own mean, then we should predict that Y will be r XY standard deviations above its own mean if X is 2 standard deviations below its own mean, then we should be predict that Y will be 2 r XY standard deviations below its own mean, and so on. In graphical terms, this means that, on a scatterplot of Y versus X the line for predicting Y from X so as to minimize mean squared error is the line that passes through the origin and has slope r XY This fact is not supposed to be obvious, but it is easily prov ed by elementary differential calculus. Here is an example on a scatterplot of Y versus X the visual axis of symmetry is a line that passes through the origin and whose slope is equal to 1 i e a 45-degree line , which is the gray dashed line on the plot below It passes through the origin because the means of both standardized variables are zero, and its slope is equal to 1 because their standard deviations are both equal to 1 The latter fact means that the points are equally spread out horizontally and vertically in terms of mean squared deviations from zero, which forces their pattern to appear roughly symmetric around the 45-degree line if the relationship between the variables really is linear However, the gray dashed line is the not the best line to use for predicting the value of Y for a given value of X The best line for predicting Y from X has a slope of less than 1 it regresses toward the X axis The regression line is shown in red, and its slope is the correlation between X and Y which is 0 46 in this case Why is this true Because, that s the way to bet if you want to minimize the mean squared error measured in the Y direction If instead you wanted to predict X from Y so as to minimize mean squared error measured in the X direction, the line would regress in the other direction relative to the 45-degree line, and by exactly the same amount. If we want to obtain the linear regression equation for predicting Y from X in unstandardized terms we just need to substitute the formulas for the standardized values in the preceding equation, which then becomes. By rearranging this equation and collecting constant terms, we obtain. is the estimated slope of the regression line, and. is the estimated Y - intercept of the line. Notice that, as we claimed earlier, the coefficients in the linear equation for predicting Y from X depend only on the means and standard deviations of X and Y and on their coefficient of correlation. The additional formulas that are needed to compute sta ndard errors t-statistics and P-values statistics that measure the precision and significance of the estimated coefficients are given in the notes on mathematics of simple regression and also illustrated in this spreadsheet file. Perfect positive correlation r XY 1 or perfect negative correlation r XY -1 is only obtained if one variable is an exact linear function of the other, without error, in which case they aren t really different variables at all. In general we find less-than-perfect correlation, which is to say, we find that r XY is less than 1 in absolute value Therefore our prediction for Y is typically smaller in absolute value than our observed value for X That is, the prediction for Y is always closer to its own mean, in units of its own standard deviation, than X was observed to be, which is Galton s phenomenon of regression to the mean. So, the technical explanation of the regression-to-the-mean effect hinges on two mathematical facts i the correlation coefficient, calculated in the manner described above, happens to be the coefficient that minimizes the squared error in predicting Y from X and ii the correlation coefficient is never larger than 1 in absolute value, and it is only equal to 1 when Y is an exact noiseless linear function of X. The term regression has stuck and has even mutated from an intransitive verb into a transitive one since Galton s time We don t merely say that the predictions for Y regress to the mean --we now say that we are regressing Y on X when we estimate a linear equation for predicting Y from X and we refer to X as a regressor in this case. When we have fitted a linear regression model, we can compute the variance of its errors and compare this to the variance of the dependent variable the latter being the error variance of an intercept-only model The relative amount by which the regression model s error variance is less than the variance of the dependent variable is referred to as the fraction of the variance that was explained by the independent variable s For example, if the error variance is 20 less than the original variance, we say we have explained 20 of the variance. It turns out that in a simple regression model, the fraction of variance explained is precisely the square of the correlation coefficient --i e the square of r Hence, the fraction-of-variance-explained has come to be known as R-squared The interpretation and use of R-squared are discussed in more detail here. In a multiple regression model one with two or more X variables , there are many correlation coefficients that must be computed, in addition to all the means and variances For example, we must consider the correlation between each X variable and the Y variable, and also the correlation between each pair of X variables In this case, it still turns out that the model coefficients and the fraction-of-variance-explained statistic can be computed entirely from knowledge of the means, standard deviations, and correlation coefficients among t he variables--but the computations are no longer easy We will leave those details to the computer Return to top of page. Go on to a nearby topic.

No comments:

Post a Comment