जब आपका PWA बोलना शुरू करे

लेखों के लिए वाक् संश्लेषण जोड़ने के लिए वेवनेट का उपयोग करना

जब हम भाषण के बारे में बात करते हैं तो हम किस बारे में बात करते हैं

जब मैंने अपने सभी लेखों का विभिन्न अन्य भाषाओं में स्वचालित अनुवाद स्थापित कर लिया, तो मैंने सोचना शुरू कर दिया कि मैं कौन सी अगली आधुनिक और उपयोगी विशेषता लागू कर सकता हूँ। जैसा कि आप पूरी तरह से सहमत होंगे कि मेरी पोस्ट पढ़ना सबसे आनंददायक अनुभवों में से एक है, मैंने सोचा था कि एक स्वचालित भाषण संश्लेषण सेवा का उपयोग करके लेख यूएक्स को और भी बढ़ाया जा सकता है। इसलिए, योजना सरल थी: मैं एक लेख पाठ की शुरुआत में एक नई क्रिया जोड़ूंगा जो उपयोगकर्ताओं को ब्राउज़र के ऑडियो प्लेयर के माध्यम से इसे सुनने की अनुमति देता है।

कैसे करें: भाषण संश्लेषण

मेरे द्वारा वर्तमान ऐप के आर्किटेक्चर को देखने के बाद, स्वचालित वाक् संश्लेषण और एक ऑडियो प्लेयर के साथ PWA को बढ़ाने के लिए निम्नलिखित वर्कफ़्लो लागू किया गया:

  1. जीसीपी के टेक्स्ट-टू-स्पीच-सर्विस के माध्यम से संश्लेषण को लागू करने के लिए मानक एक के बजाय (बहुत) प्राइसर वेवनेट विकल्प का उपयोग करना
  2. बनाई गई mp3-फ़ाइल को Firebase संग्रहण में संग्रहीत करना, एक साधारण फ़ाइल सिस्टम जिसे GCP में भी होस्ट किया गया है; फ़ाइल के नाम में लेख का स्लग और प्रयुक्त लोकेल शामिल है, जो मुझे एक निहित आईडी देता है और एक अलग दस्तावेज़ को जोड़ने से बचाता है जो किसी दिए गए भाषण के लिए सभी यूआरएल का संदर्भ रखता है
  3. फिर मैं एक लेख पृष्ठ बनाते या अपडेट करते समय वर्सेल सर्वर पर उपरोक्त दो चरणों को कॉल कर रहा हूं, जो वर्तमान में हर 24 घंटे में अधिकतम होता है
  4. ऑडियो URL उपलब्ध होने की स्थिति में वेब प्लेयर के लिए आलसी लोडिंग का उपयोग करना

आलसी होना जरूरी है

मैं अपने वेब एप्लिकेशन लोडिंग प्रदर्शन (और परिणामस्वरूप खोज इंजन रैंकिंग) को नुकसान नहीं पहुंचाना चाहता, इसलिए वेब प्लेयर दो शर्तों के पूरा होने के बाद ही ऑन-डिमांड लोड हो जाता है:

  • लेख के लिए एक ऑडियो यूआरएल वास्तव में उपलब्ध है, जो वर्तमान में मुख्य रूप से लागत कम रखने के लिए केवल अंग्रेजी ग्रंथों के लिए लागू होता है
  • एक उपयोगकर्ता प्ले-बटन पर क्लिक करता है, जो वास्तव में पढ़े गए लेख को वास्तव में सुनने की इच्छा दर्शाता है

सभी भाषाएं (अभी के लिए) क्यों नहीं?

वास्तविक वाक् संश्लेषण मॉडल के रूप में Google के वेवनेट का उपयोग करने के कारण, मुझे इस सुविधा के लिए लागतों को चिंता का मुख्य बिंदु मानना होगा। वेवनेट के उपयोग की लागत मानक संश्लेषण मॉडल से चार गुना अधिक है। फिर भी मैंने इसे चुना है क्योंकि वेवनेट न केवल Google से बल्कि आईबीएम से भी अधिकांश अन्य मॉडलों से बेहतर प्रदर्शन करता है, उदाहरण के लिए।

बिल्कुल शुरुआत है

यह एक त्वरित अवलोकन था कि मैंने इस PWA के पहले संस्करण में भाषण संश्लेषण को कैसे लागू किया। कोड के लिए समय में केवल कुछ घंटे लगे, क्योंकि मैं पहले से ही एक GCP ग्राहक होने के कारण अधिकांश सेटअप कर रहा था। उत्पन्न आउटपुट अविश्वसनीय रूप से अच्छा लगता है, जो वेवनेट और एमएल-आधारित दृष्टिकोण के साथ-साथ टेक्स्ट हैंडलिंग की ताकत दिखाता है। भविष्य के कार्यान्वयन से सभी समर्थित भाषाओं के लिए जोर से पढ़ा जा सकता है। आगामी महीनों में उपयोग और लागतों के आधार पर, मैं यह निर्धारित करूंगा कि इस मामले में कैसे आगे बढ़ना है।

टॉम

सुझाव

संबंधित

परिशिष्ट

भाषाएँ