आपके परीक्षण वैज्ञानिक क्यों नहीं हैं • योआस्ट

आपके परीक्षण वैज्ञानिक क्यों नहीं हैं • योआस्ट

मैंने ए/बी परीक्षणों के बारे में बहुत सारे लेख पढ़े हैं और मैं परीक्षण में जो अंतर देखता हूं उससे मुझे आश्चर्य होता है। मुझे लगता है कि यह कहना सुरक्षित है: अधिकांश रूपांतरण दर अनुकूलन परीक्षण वैज्ञानिक नहीं है। मेरा क्या मतलब है यह समझाने के लिए यह बहुत अधिक जगह लेगा बिल्कुल वैज्ञानिक होने के कारण, लेकिन मैं उस पर एक पोस्ट अगले हफ्ते मैरीके के साथ प्रकाशित करूंगा।

मैं इस पोस्ट के दौरान बहुत कुंद रहूंगा, लेकिन मुझे गलत मत समझिए। ए/बी परीक्षण बहुत सी चीजों को नियंत्रित करने का एक अद्भुत तरीका है जिसे सामान्य वैज्ञानिक प्रयोग नियंत्रित नहीं कर पाएंगे। बात बस इतनी है कि अधिकांश लोग इन A/B परीक्षणों के परिणामों की व्याख्या करते हैं और निष्कर्ष निकालते हैं, जिसका कोई मतलब नहीं होता है।

पर्याप्त डेटा नहीं

पहली वाली अपेक्षाकृत सरल है, लेकिन फिर भी एक अधिक सामान्य गलती है जिसकी मैं कभी कल्पना भी नहीं कर सकता था। ए/बी परीक्षण, या उस मामले के लिए किसी प्रकार का परीक्षण करते समय, आपको वास्तव में कुछ भी निष्कर्ष निकालने में सक्षम होने के लिए पर्याप्त डेटा की आवश्यकता होती है। ऐसा लगता है कि लोग यह भूल रहे हैं कि ए/बी परीक्षण नमूनों पर आधारित होते हैं। जब मैं Google का उपयोग करता हूं, तो नमूने इस प्रकार परिभाषित किए जाएंगे:

एक छोटा सा हिस्सा या मात्रा जिसका उद्देश्य यह दिखाना है कि पूरा कैसा है

वेबसाइटों पर ए/बी परीक्षण के लिए, इसका मतलब है कि आप अपनी साइट के आगंतुकों का एक छोटा सा हिस्सा लेते हैं, और उससे सामान्यीकरण करना शुरू करते हैं। तो जाहिर है, आपके नमूने को वास्तव में इससे सार्थक निष्कर्ष निकालने के लिए काफी बड़ा होना चाहिए। क्योंकि यदि आपका नमूना काफी बड़ा नहीं है तो किसी भी अंतर को पहचानना असंभव है।

बहुत छोटा नमूना होने से आपकी शक्ति में समस्या होगी। शक्ति एक वैज्ञानिक शब्द है, जिसका अर्थ है संभावना है कि आपकी परिकल्पना वास्तव में सत्य है। यह कई चीजों पर निर्भर करता है, लेकिन अपने नमूने का आकार बढ़ाना अपनी शक्ति को उच्च बनाने का सबसे आसान तरीका है।

परीक्षण पूरे सप्ताह चलाएँ

हालाँकि, आपका नमूना आकार और शक्ति छत के माध्यम से हो सकती है, यदि आपका नमूना प्रतिनिधि नहीं है तो यह सब मायने नहीं रखता। इसका मतलब यह है कि आपके नमूने को तार्किक रूप से आपके सभी आगंतुकों के समान होना चाहिए। ऐसा करने से, आप अपने निष्कर्षों को अपने आगंतुकों की पूरी आबादी के लिए सामान्यीकृत कर सकेंगे।

और यह एक और मुद्दा है जिसका मैंने कई बार सामना किया है: बहुत से लोग पूरे सप्ताह (7 दिनों के) तक अपने परीक्षण चलाना नहीं छोड़ते हैं। मैंने अपने पहले के एक पोस्ट में पहले ही कहा है, कि लोगों का ऑनलाइन व्यवहार हर दिन अलग होता है। इसलिए यदि आप अपने परीक्षण पूरे सप्ताह नहीं चलाते हैं, तो आपने कुछ दिनों में दूसरों की तुलना में अधिक बार परीक्षण किया होगा। और इससे आपके नमूने से आपकी पूरी आबादी का सामान्यीकरण करना कठिन हो जाएगा। यह सिर्फ एक और चर है जिसके लिए आपको सही करना होगा, जबकि इसे रोकना इतना आसान है।

तुलना

आपके परीक्षणों की अवधि तब और भी महत्वपूर्ण हो जाती है जब आप दो भिन्नताओं की एक दूसरे से तुलना कर रहे होते हैं। यदि आप एक बहुभिन्नरूपी परीक्षण का उपयोग नहीं कर रहे हैं, लेकिन एक से अधिक A/B परीक्षणों का उपयोग करके परीक्षण करना चाहते हैं, तो आपको समान समय के लिए इन विविधताओं का परीक्षण करना होगा। मुझे परवाह नहीं है कि आपने प्रत्येक विविधता पर कितना ट्रैफ़िक प्राप्त किया है; यदि आप नहीं करते हैं तो आपकी तुलना विकृत होने वाली है।

मैं पिछले हफ्ते ContentVerve द्वारा एक अपेक्षाकृत पुरानी पोस्ट पर आया था (जो दुख की बात है कि अब ऑनलाइन नहीं है), क्योंकि किसी ने माइकल की आखिरी पोस्ट में इसका उल्लेख किया था। अब, सबसे पहले, वे अपने परीक्षण पूरे सप्ताह नहीं चला रहे हैं। इसके लिए कोई बहाना नहीं है, खासकर यदि आप परीक्षणों की तुलना करने जा रहे हैं। इसके ऊपर, वे वास्तव में परीक्षणों की तुलना कर रहे हैं, लेकिन वे अपने परीक्षण समान रूप से लंबे समय तक नहीं चला रहे हैं। उनके परीक्षण 9, 12, 12 और 15 दिनों तक चले। मैं यह नहीं कह रहा कि शाम होने से नतीजा बदल जाएगा। मैं बस इतना कह रहा हूं कि यह वैज्ञानिक नहीं है। बिल्कुल भी।

अब मैं ContentVerve के खिलाफ नहीं हूं, और यहां तक ​​कि यह पोस्ट भी कुछ दिलचस्प बातें बताती है। लेकिन मुझे उनके डेटा या टेस्ट पर भरोसा नहीं है। वहां एक ग्राफ है जिसने मुझे विशेष रूप से काम किया है:

टेस्ट कंटेंट वर्व

अब यह वह तस्वीर है जो वे पाठकों को देते हैं, उनके कहने के ठीक बाद साइनअप में 19.47% की वृद्धि के साथ यह विजयी बदलाव था। ईमानदारी से कहूं तो, मैं जो कुछ भी देख रहा हूं वह दो बहुत ही समान भिन्नताएं हैं, जिनमें से एक का 2 दिनों के लिए शिखर रहा है। उस पीक के बाद उन्होंने टेस्ट रोक दिया। केवल इस ग्राफ को देखकर, आपको अपने आप से पूछना होगा: क्या यह प्रभाव हमने वास्तव में अपनी भिन्नता के प्रभाव को पाया है?

डेटा प्रदूषण

वह अंतिम प्रश्न हमेशा उत्तर देने के लिए एक कठिन प्रश्न होता है। किसी वेबसाइट, विशेष रूप से बड़ी साइटों पर परीक्षण चलाने की समस्या यह है कि बहुत सी चीज़ें आपके डेटा को “प्रदूषित” कर रही हैं। आपकी वेबसाइट पर कुछ चीज़ें चल रही हैं; आप चीजों को बदल रहे हैं और ट्वीक कर रहे हैं, आप ब्लॉगिंग कर रहे हैं, आप सोशल मीडिया पर सक्रिय हैं। ये सभी चीजें हैं जो आपके डेटा को प्रभावित कर सकती हैं और करेंगी। आपको अधिक विज़िटर मिल रहे हैं, हो सकता है कि अधिक विज़िटर सदस्यता लेने या कुछ खरीदने के इच्छुक हों।

जाहिर है, हमें इसके साथ ही रहना होगा, लेकिन फिर भी इसे जानना और समझना बहुत महत्वपूर्ण है। ‘स्वच्छ’ परिणाम प्राप्त करने के लिए आपको कम से कम कुछ सप्ताह तक अपना परीक्षण चलाना होगा, और ऐसा न करें कुछ भी जो प्रत्यक्ष या अप्रत्यक्ष रूप से आपके डेटा को प्रभावित कर सकता है। व्यवसाय चलाने वाले किसी भी व्यक्ति के लिए यह लगभग असंभव है।

तो अपने आप को मूर्ख मत बनाओ। यह कभी न सोचें कि आपके परीक्षणों के परिणाम वास्तविक तथ्य हैं। और यह और भी सच है अगर आपके परिणाम लगातार 2 दिनों में ही बढ़े हैं।

व्याख्याओं

एक बात जिसने मुझे कुछ हद तक नाराज भी किया, वह है ContentVerve लेख का निम्नलिखित भाग:

मेरी परिकल्पना यह है – हालांकि संदेश संभावनाओं को आश्वस्त करने के इर्द-गिर्द घूमता है कि उन्हें स्पैम नहीं किया जाएगा – शब्द स्पैम स्वयं संभावनाओं के मन में चिंता को जन्म देते हैं। इसलिए, शब्द को फॉर्म के करीब से बचना चाहिए।

यह बिल्कुल असंभव है। एक परिकल्पना को एक बार फिर Google द्वारा परिभाषित किया गया है, “आगे की जांच के लिए एक प्रारंभिक बिंदु के रूप में सीमित साक्ष्य के आधार पर एक अनुमान या प्रस्तावित स्पष्टीकरण।” ContentVerve की परिकल्पना किसी भी तरह से इसके आधार पर नहीं बनाई गई है कोई प्रमाण। इस तथ्य की तो बात ही छोड़ दीजिए कि वह कभी भी मामले की और जांच नहीं करेंगे। पूरे सम्मान के साथ, यह कोई परिकल्पना नहीं है: यह एक ब्रेन फ़ार्ट है। और यह कहना कि आपको ब्रेन फ़ार्ट के आधार पर कुछ भी करने से बचना चाहिए, ठीक है, मूर्खतापूर्ण है।

यह है एक बहुत रूपांतरण दर अनुकूलक के बीच आम गलती। मैं क्रिस गोवर्ड द्वारा इस वेबिनार में शामिल हुआ, जिसमें उन्होंने कहा (14 मिनट में), और मैं उद्धृत करता हूं:

“यह पता चला है कि गलत संदर्भ में, वे चरण संकेतक वास्तव में चिंता पैदा कर सकते हैं, आप जानते हैं, जब यह न्यूनतम निवेश लेनदेन होता है, तो लोग यह नहीं समझ सकते हैं कि उन्हें केवल साइन इन करने के लिए तीन चरणों से गुजरने की आवश्यकता क्यों है।”

और फिर मैं चला गया। यह और भी बुरा है, क्योंकि वह इसे परिकल्पना भी नहीं कह रहे हैं। वह इसे तथ्य कह रहे हैं। लोग व्यवहारिक स्पष्टीकरण प्राप्त करने और इसे लेबल करने के लिए बहुत उत्सुक हैं। मैं एक व्यवहार वैज्ञानिक हूँ, और मैं आपको बता दूँ; विशुद्ध रूप से ऑनलाइन किए गए अध्ययनों में, यह बिल्कुल असंभव है।

इसलिए अपने खेल पर कायम रहें और उन चीजों के बारे में बात करना शुरू न करें जिनके बारे में आप कुछ भी नहीं जानते हैं। मैंने वास्तव में इस तरह की चीजों के लिए सीखा है और यहां तक ​​कि मैं खुद से मजाक नहीं कर रहा हूं, मैं इन प्रक्रियाओं को समझता हूं। आप अपने परीक्षण के परिणामों को किसी भी चीज़ से परे सामान्यीकृत नहीं कर सकते हैं जो आपका परीक्षण माप रहा है। आप तब तक नहीं जान सकते, जब तक कि आपके पिछवाड़े में न्यूरोसाइंस लैब न हो।

महत्व महत्वपूर्ण नहीं है

यहाँ मुझे डर है कि ContentVerve के लोगों ने भी किया है: उन्होंने अपना परीक्षण तब तक चालू रखा जब तक कि उनके टूल ने अंतर को ‘महत्वपूर्ण’ नहीं बताया। सीधे शब्दों में कहें: यदि उनके परीक्षण रूपांतरों के रूपांतरण 13वें दिन गिर जाते, तो उनका परिणाम महत्वपूर्ण नहीं रह जाता। इससे पता चलता है कि किसी चीज के महत्वपूर्ण होने तक उसका परीक्षण करना कितना खतरनाक हो सकता है।

इन रूपांतरण उपकरणों को उचित रूप से ‘उपकरण’ कहा जाता है। आप उनकी तुलना हथौड़े से कर सकते हैं; आप लकड़ी के एक टुकड़े में कीलें ठोंकने के लिए हथौड़े का इस्तेमाल करेंगे, लेकिन वास्तव में हथौड़े से आपके लिए सारा काम नहीं होगा, है न? आप अभी भी नियंत्रण चाहते हैं, यह सुनिश्चित करने के लिए कि नाखून जितनी गहराई से आप चाहते हैं, और उस स्थान पर आप चाहते हैं। रूपांतरण टूल के साथ भी ऐसा ही है; वे उपकरण हैं जिनका उपयोग आप एक वांछित परिणाम तक पहुँचने के लिए कर सकते हैं, लेकिन आपको अपने आप को उनके नेतृत्व में नहीं आने देना चाहिए।

मैं अभी आपको यह सोचते हुए सुन सकता हूं: “फिर यह वास्तव में मेरे लिए काम क्यों कर रहा है? मैंने परीक्षण के बाद अधिक पैसा कमाया/अधिक सब्सक्रिप्शन प्राप्त किया!” ज़रूर, यह काम कर सकता है। आप इससे और पैसे भी कमा सकते हैं। लेकिन इस मामले की सच्चाई यह है कि लंबे समय में, यदि आप उन्हें वैज्ञानिक रूप से करते हैं तो आपके परीक्षण कहीं अधिक मूल्यवान होंगे। आप अधिक और अधिक सटीकता के साथ भविष्यवाणी करने में सक्षम होंगे। और आपके सामान्यीकरण वास्तव में समझ में आएंगे।

निष्कर्ष

यह सब इन सरल और कार्रवाई योग्य बिंदुओं पर उबलता है:

  • कम से कम एक सप्ताह के लिए अपने परीक्षण चलाकर दूसरों के बीच एक अच्छी शक्ति प्राप्त करें (अधिमानतः बहुत अधिक);
  • पूरे सप्ताह अपने परीक्षण चलाकर दूसरों के बीच अपना नमूना प्रतिनिधि बनाएं;
  • केवल समान अवधि वाले परीक्षणों की तुलना करें;
  • ऐसा मत सोचो कि आपका परीक्षण आपको मनोवैज्ञानिक प्रक्रियाओं के साथ परिणामों की ‘व्याख्या’ करने का कोई आधार देता है;
  • अपने महत्व की गणना की जाँच करें।

तो कृपया, अपने परीक्षण को एक विज्ञान बनाएं। रूपांतरण दर अनुकूलन केवल कुछ यादृच्छिक परीक्षण नहीं है, यह एक विज्ञान है। एक विज्ञान जो आपकी कंपनी के लिए (बढ़ी हुई) व्यवहार्यता पैदा कर सकता है। या आप असहमत हैं?

आपके परीक्षण वैज्ञानिक क्यों नहीं हैं • योआस्ट आपके परीक्षण वैज्ञानिक क्यों नहीं हैं • योआस्ट

प्रातिक्रिया दे

आपका ईमेल पता प्रकाशित नहीं किया जाएगा. आवश्यक फ़ील्ड चिह्नित हैं *