लिनक्स व्हॉइस रेकग्निशनचे राज्य

परिचय

मी बर्याच वेळा लेखासाठी संशोधन करतो आणि बर्याचदा मी ट्रेन स्टेशनला जाताना किंवा सर्वसाधारणपणे बाहेर असताना एखाद्या लेखासाठी विषयाबद्दल विचार करतो.

1.5 मिनिटांनी माझ्या कार्यालयापासून स्टेशनपर्यंत चालत असताना मी विचार केला, "मी काय सांगू इच्छितो ते रेकॉर्ड करू शकले असते आणि नंतर ते एका मजकूर फाईलवर स्वयंचलितपणे लिहून ठेवले असते जे मी नंतर संपादित आणि स्वरूपित करू शकते" .

मी लिनक्समधील शब्दलेखन सॉफ्टवेअरचा वापर करून मायक्रोफोनद्वारे थेट रेकॉर्डिंगसह ध्वनी ओळख आणि श्रुतलेखनासाठी उपलब्ध असलेले विविध पर्याय पाहत आहे, फाईल एमपी 3 किंवा WAV स्वरुपात रेकॉर्ड करत आहे आणि त्यास कमांड लाइनद्वारे, तसेच क्रोम वापरुन बदलतो. आणि Android अनुप्रयोग

हा लेख कठोर मेहनतीच्या दिवसांनंतर माझ्या निष्कर्षांवर प्रकाश टाकतो.

Linux पर्याय

लिनक्समध्ये शुद्धलेखन आणि व्हॉइस ओळखण्यासाठी सॉफ्टवेअर शोधणे तितके सोपे नाही कारण ते शक्य आहे आणि उपलब्ध पर्याय हे चतुर नसतात.

या विकिपीडिया पृष्ठावर संभाव्य पर्यायांची यादी आहे सीएमयू स्फिंक्स, ज्युलियस आणि सायमन.

मी SparkyLinux वापरत आहे जो सध्याच्या डेबियन टेस्टिंगवर आधारित आहे आणि मी तुम्हाला सांगू शकतो की रेपॉजिटरीजमध्ये उपलब्ध असलेल्या एकमेव आवाज ओळख संकुल स्पिंक्स आहे.

मी प्रयत्न करत असलेला नेटिव्ह लिनक्स प्रोग्राम्स पॉकेटस्फिन्क्स होता, ज्याचा वापर मी WAV फाइल्सला टेक्स्ट आणि फ्रीस-स्पीच-व्हीआर मध्ये रूपांतरित करते जे एक अजगर अनुप्रयोग आहे जे आपल्याला थेट मायक्रोफोनवरून रेकॉर्ड करता येते.

मी व्हॉइसएनोट II आणि डिक्टानेटसह काही Chrome अॅप्स देखील प्रयत्न केला.

शेवटी मी "डिक्टेशन एण्ड ई-मेल" आणि "टॉक एंड टॉक डिक्टेशन" हा Android अॅप्स

फ्रीपीएस-वीआर

फ्रीझेक्च-वीआर मानक भांडारामध्ये उपलब्ध नाही. मी येथून फायली डाउनलोड केल्या आहेत.

झिप फाईलवरील सामुग्री डाउनलोड आणि काढून टाकल्यानंतर मी एक टर्मिनल उघडले आणि त्या फोल्डरमध्ये नेव्हिगेट केली जिथे फाईल्स काढली होती.

मी freespeech-vr उघडण्यासाठी खालील आदेश टाइप केला.

sudo python freespeech-vr

माझ्याकडे हेडफोन्सची एक जोडी अगदी एक सभ्य मायक्रोफोन आहे आणि एक स्पष्टपणे दक्षिणी इंग्रजी उच्चारण आहे.

खालील मजकूर freespeech-vr विंडोमध्ये आले:

परिणामस्वरूप युनिट कुत्रेमध्ये आपले स्वागत आहे आज मॅनेजमेंट टेस्ट कसे करावे याचे परीक्षण करावे लागते. जेव्हा टेस्टचा वापर केला जातो तेव्हा प्रणालीचा मार्ग वापरतात. भाषण मी एक प्रत्येकासाठी केवळ राहण्याच्या आशेवर होता आणि एक चिकनचा अर्थ तंत्रज्ञानाचा म्हणून सुवर्ण म्हणून Ea जेव्हा माझे नाव पुढचे ओव्हर कॉल करेल तेव्हा हे फाइल लवकरच पूर्ण व्हायरस जागेवर असेल- स्पिंक्स गॉईंग हे फोन नाही सामायिक केले जाईल प्रशिक्षित आणि साधने बोलणे वापरा जेव्हा आपण एक फाईल वापरली असेल तर अंतिम एक कथा अ आणि एक वापरत असताना जेव्हा हे खूपच यश असते ही लिनक्स म्हणजे जसे आपण टाळत आहात ते आहे

मी हे सांगू इच्छितो की हे कुत्रे वेबसाइटचे युनिट नाही आणि कोणत्याही वेळी मी गोल्डन कोंबडीबरोबर काही करण्याचे काहीही सांगितले नाही. मी व्हॉइस ओळख सॉफ्टवेअरचा वापर करण्याच्या प्रक्रियेचे वर्णन करण्याचा प्रयत्न करीत होतो.

मी वेगवेगळ्या वेळी खेळपट्टीवर व वेगवानसह सॉफ्टवेअरचा प्रयत्न केला पण अचूकता कमी होती

पॉकेटस्फिंक्स

PocketSphinx एक WAV फाइल घेण्यास सक्षम आहे आणि त्याला कमांड लाइन वापरून मजकूर रूपांतरित करण्यास सक्षम आहे.

PocketSphinx डेबियन भांडारांद्वारे उपलब्ध आहे आणि बहुतेक वितरकांसाठी उपलब्ध असावे.

पॉकेटस्फिन्क्ससह मला मिळालेली मुख्य समस्या अशी आहे की आपण व्हॉइस ओळख, भाषा फाइल्स, शब्दकोष आणि प्रणालीला कसे प्रशिक्षित करावे याच्या संकल्पनांमध्ये अक्षरशः एक पदवी आवश्यक आहे.

पॉकेटफिन्क्स स्थापित केल्यानंतर आपण सीएमयू स्फिंक्स वेबसाइटवर जाऊन शक्य तितक्या अधिक माहिती वाचू शकता. आपण खालील मॉडेल फाइल डाउनलोड करणे आवश्यक आहे.

(आपण नसल्यास मूळ इंग्रजीचे स्पीकर भाषा मॉडेल निवडा जे आपल्यासाठी योग्य आहे).

PocketSphinx आणि Sphinx साठी सर्वसाधारणपणे दस्ताएवजाच्या माहितीसाठी कठिण शब्द समजणे कठिण आहे परंतु मी जे करू शकेन तेच शब्दकोश फायली संभाव्य शब्दांची सूची प्रदान करण्यासाठी वापरले जातात आणि भाषेच्या मॉडेलमध्ये संभाव्य उच्चारांची सूची असते.

पॉकेटस्फिन्क्स चाचणी करण्यासाठी मी "द डेव्हिल्स ऍडव्होकेट" मधील अल पचिन आणि "मॉर्गन फ्रीमन" च्या एका स्निपेट मधील स्वतःच्या आवाजाचे रेकॉर्डिंग वापरले. या मुद्द्यावर वेगवेगळे आवाज उठवायचे होते आणि माझ्यासाठी कोणीही नाही जो मॉर्गन फ्रीमनसारखा स्पष्टपणे सांगू शकतो आणि कोणीही अल पचिनो सारखा एक मार्ग देऊ शकत नाही.

पॉकेटस्फिंक्ससाठी कार्य करण्यासाठी तिला WAV फाइल आवश्यक आहे आणि ती एखाद्या विशिष्ट स्वरूपामध्ये असणे आवश्यक आहे. फाईल एमपी 3 स्वरूपात असेल तर त्यास WAV स्वरूपात रुपांतरीत करण्यासाठी ffmpeg आदेश वापरा:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx चालवण्यासाठी खालील आज्ञा वापरा:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm सेंमीफिन्क्स-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous ने एक WAV फाइल घेतली आणि ती मजकूरामध्ये रूपांतरीत केली.

Pocketsphinx वरील आदेशात "मॉड्यूल" cmusphinx-5.0-en-us.lm "भाषासह" /usr/share/pocketsphinx/model/lm/en_us/cmu07a.dic "नावाची शब्दकोश फाइल वापरण्यासाठी सांगितले जाते. मजकूरात रुपांतरित करण्यात येणारी फाइल voice2.wav (जो मी माझ्या आवाजाद्वारे बनविलेले रेकॉर्डिंग आहे) म्हटले जाते. शेवटी 2> सर्व वर्बोस आउटपुटस ठेवते जे आपल्याला आवश्यक नसल्यास वॉयस 2.log नावाची फाइल आवश्यक आहे. चाचणीच्या वास्तविक निकाल टर्मिनल विंडोमध्ये प्रदर्शित होतात.

माझे आवाज वापरून परिणाम खालीलप्रमाणे आहेत:

पुढील आठवड्यात चांगले स्वागत आहे या आठवड्यात कोणता विषय ज्याबद्दल एक मिनिट मध्ये ओळख सॉफ्टवेअर

परिणाम फायर स्पीच-वीर म्हणून तितके भयानक नाहीत पण तरीही ते खरोखर वापरण्यायोग्य नाहीत. मी नंतर अल पचिनोसह पॉकेटस्फिन्क्सचा वापर करण्याचा प्रयत्न केला पण यामुळे कोणतेही परिणाम परत आले नाहीत.

अखेरीस मी "ब्रुस सर्वसमर्थ" मूव्ही पासून मॉर्गन फ्रीमन आवाज वापरून प्रयत्न केला आणि येथे परिणाम आहेत:

000000000: आम्ही तिच्यावर आहोत
000000001: हे सगळे खडतर दिवस आहे हे आत्ताच होय हे सर्वात आम्ही जिथे जिवंत झालो आहोत ते मी गरम करून भाग आहे
000000002: बिल्डींग वाजण्याच्या किल्लीच्या बाहेर असलेल्या लिफ्टमध्ये किंवा जीवनात काय करावे हे जाणून घ्या.
000000003: जे पुनर्प्राप्त होतील ते कोणते आहेत
000000004: त्यांनी ते लिहीत नाही
000000005: ते माझ्या बरोबरच बाहेर आहेत
000000006: आपण नियम असणे आवश्यक आहे
000000007: मी तुम्हाला अपेक्षा केली आहे
000000008: आणि तो शिकला होता हे एक उदाहरण होते खून ख्रिसमस पार्टी
000000009: ओ हे लिहिण्यासाठी एक मार्ग बाहेर वळते. गाढव मी नेहमी काही बोललो असे वाटले
000000010: जसे समस्या एकसंघ झाली ती चांगले देऊ शकणार नाही मी त्या क्षणी त्यांना अंदाजे अनुमान काढतो जेव्हा आपण सगळे नाही वाटत की मी जगात आहे आणि मी हे पाहिले आहे
000000011: एक वडील ज्याला तो आहे
000000012: याबद्दल बरेच काही
000000013: हे दिलेले नाही
000000014: आपण जे सर्व खूप काही पडत नाहीत त्या सर्व
000000015: गडी बाद होण्याचा क्रम
000000016: फक्त माझ्यासाठीच धरून ठेवा
000000017: मला वाटतं तर ते नाखूष आहेत की त्यांच्याजवळ असणार आहे की त्यावरील विवाह सर्व काही नाही मला मार्ग आवडत नाही

माझी चाचणी क्वचितच वैज्ञानिक मानली जाऊ शकते आणि पॉकेटस्फिन्क्सच्या डेव्हलपर्सने असे म्हटले आहे की मी सॉफ्टवेअर योग्यपणे वापरत नाही. व्हॉइस प्रशिक्षण देणारी एक तंत्र आहे ज्याचा वापर योग्य शब्दकोश आणि भाषा फायली तयार करण्यासाठी केला जाऊ शकतो.

माझे अधिलिखित मत असे आहे की मानक दररोजच्या वापरातून हे फार अवघड आहे.

व्हॉइसनोट II

व्हॉइसनोट II एक Google अॅप आहे जो Google Voice ओळख API चा वापर करतो.

आपण Chrome किंवा Chromium ब्राउझर वापरत असल्यास आपण व्हॉइसनोट II वेब स्टोअरमार्गे स्थापित करू शकता.

व्हॉइसनोट II वरील चिन्ह एका विचित्र प्रकारात ठेवले आहेत कारण आपल्याला विंडोच्या तळाशी भाषा सेट करण्याची आवश्यकता आहे आणि संपादन बटण तळाशी आहे, तथापि रेकॉर्ड बटण वरच्या उजव्या स्थानावर आहे

पहिली गोष्ट जी तुम्हाला एक भाषा निवडायची आहे आणि ती जगाच्या चिन्हावर क्लिक करून मिळवली जाऊ शकते.

रेकॉर्डिंग प्रारंभ करण्यासाठी, मायक्रोफोन चिन्हावर क्लिक करा आणि आपल्या मायक्रोफोनमध्ये बोलणे प्रारंभ करा. सर्वोत्तम परिणामांसाठी मला हळूवारपणे बोलायला मिळाले की जेणेकरून सॉफ्टवेअरला कायम राहण्याची संधी मिळेल.

परिणाम खाली दिसत नाही म्हणून चांगले नव्हते:

हॅलो आणि कनेक्ट करण्यासाठी आपले स्वागत आहे. आजच्या रोजच्या लेखांविषयी आवाजातील मजकूर पाठवण्याकरता दूरध्वनीसाठी फेरेल मंदी 2008 रूपांतरित म्हणून आणि त्यात म्हटले आहे की मी 2014 डेबियन किंवा आरपीएम पॅकेज दर्शविण्यासाठी व्हॉइस मजकूर अॅडॉनचा सर्वोत्तम मार्ग समर्थित केला आहे. वि अॅडिनबर्ग फ्रेंच जर्मन मध्ये निवडलेल्या समुद्रात microphonth येथे आपण युनायटेड किंगडमस्टार्ट मध्ये वेळ मिळेल आपण त्याच्यासाठी सर्वोत्तम इंग्लंड दक्षिण पासून फार मानक इंग्रजी उच्चारण आहे की welluuccess करण्यासाठी मजकूर फाइल म्हणून आपला मजकूर लिहायचा पण मी या torrentalong मजकूरविज्ञान वर जात आहे प्रत्यक्ष दस्तऐवजासह आणि आपण अशा गुन्ह्यांकडे पाहू शकता जे ऐकून घेण्यास मदत करतात

Dictanote

डिक्टेन्टो एक अन्य क्रोम अॅप आहे ज्याचा वापर श्रुतलेखनाच्या हेतूंसाठी केला जाऊ शकतो आणि तो अधिक सहजज्ञ झाला आहे परंतु परिणाम व्हॉइसएनोट II पेक्षा काही चांगले नव्हते.

मी केवळ डेक्टनोटचे डेमो वर्जन वापरले आहे जे आपल्याला नवीन कागदजत्र तयार करण्यास प्रतिबंधित करते परंतु ते आपल्याला संपादकामध्ये आधीपासूनच असलेल्या मजकूरावर बोलण्यास देते. मी आवाज ओळख चाचणी करण्यास सक्षम होते परंतु परिणाम व्हॉइसएनोट II पेक्षा चांगले नव्हते आणि त्यामुळे मी प्रो आवृत्तीसाठी साइन अप केले नाही.

शुद्धलेखन आणि मेल

"डिक्ट्रिशन अँड मेल" हा एक Android अनुप्रयोग आहे जो मूळ Google Voice Recognition API वापरतो.

"बिझीनेस आणि मेल" मधील निष्कर्ष या मुद्याच्या कोणत्याही अन्य प्रयत्नांतून अधिक चांगले होते.

हॅलो, लिनक्सबद्दल स्वागत आहे. आज आपण ध्वनीमध्ये टेक्स्ट रूपांतरित करण्याबद्दल बोलत आहोत

"डिक्ट्रिशन अॅन्ड मेल" या युक्तीने हळूहळू बोलता येणे शक्य आहे तसेच आपण बोलू शकणारे तसेच बोलू शकता.

आपण बोलणे पूर्ण केल्यानंतर आपण स्वतःला परिणाम ईमेल करू शकता.

टॉक अँड टॉक डिक्टेटेशन

मी वापरलेला दुसरा हा Android अनुप्रयोग "Talk and Talk Dictation" होता.

या अॅपसाठी इंटरफेस गुंडातील सर्वोत्तम होता आणि व्हॉईस ओळख खरोखरच खूप चांगले काम करते. श्रुतलेख रेकॉर्ड केल्यानंतर मी परिणामांसह ईमेलद्वारे विविध मार्गांनी सहभागी होऊ शकले.

लिनक्स about.com वर आपले स्वागत आहे आज आपण भाषणाकडे मजकूर पाठवण्याबद्दल बोलत आहोत

आपण पाहू शकता की वरील मजकूर स्पष्टपणे आहे म्हणून आपण प्राप्त करण्याची अपेक्षा करू शकता. हळू हळू बोलणे की आहे

सारांश

नेटिव्ह लिनक्समध्ये व्हॉइस ओळख आणि विशेषत: श्रुतलेखनाच्या बाबतीत काही मार्ग आहे. तेथे काही अनुप्रयोग आहेत जे Google Voice API वापरतात परंतु ते अद्याप रिपॉझिटरीजमध्ये सूचीबद्ध नाहीत.

ChromeOS अनुप्रयोग थोड्या प्रमाणात चांगले आहेत परंतु माझ्या अॅन्ड्रॉइड फोनद्वारे उत्कृष्ट परिणाम गाठले गेले. कदाचित फोनमध्ये चांगला मायक्रोफोन असेल आणि म्हणूनच व्हॉइस ओळखण्यासाठी सॉफ्टवेअर रुपांतरीत होण्याची अधिक शक्यता आहे.

आवाज ओळखणे खरोखर वापरता येण्याजोग्यासाठी आवश्यक असलेल्या कमी सेटअपसह अधिक सहजतेने असणे आवश्यक आहे. आपण सुगम बनण्यासाठी भाषा मॉडेल आणि शब्दकोषासह सुमारे घोटाळा करण्याची आवश्यकता नाही.

मी मात्र प्रशंसा करतो की आवाजाची संपूर्ण कला अतिशय आव्हानात्मक आहे कारण प्रत्येकाची वेगळी आवाज आहे आणि एक देशांतील प्रदेशापर्यंत अनेक बोलीभाषा आहेत. जगभरात वापरल्या जाणाऱ्या शेकडो भाषांबद्दल चिंता करणे कधीही कमी पडत नाही.

माझे विश्लेषण, म्हणून, आवाज ओळखणे सॉफ्टवेअर अद्याप प्रगतीपथावर आहे.