Სარჩევი:
- ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი
- ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები
- ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით
- ნაბიჯი 4: ამ ყველაფრის ერთად შედგენა: მეტყველების ამოცნობის დამყარება პითონთან Google მეტყველების ამოცნობის API და Pyttsx3 ბიბლიოთეკის გამოყენებით
ვიდეო: მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი
2024 ავტორი: John Day | [email protected]. ბოლოს შეცვლილი: 2024-01-30 10:17
Სიტყვის აღიარება
მეტყველების ამოცნობა არის ბუნებრივი ენის დამუშავების ნაწილი, რომელიც წარმოადგენს ხელოვნური ინტელექტის ქვეგანყოფილებას. მარტივად რომ ვთქვათ, მეტყველების ამოცნობა არის კომპიუტერული პროგრამული უზრუნველყოფის უნარი ამოიცნოს სიტყვები და ფრაზები სალაპარაკო ენაზე და გადააკეთოს ისინი ადამიანის წაკითხვად ტექსტად. იგი გამოიყენება რამდენიმე პროგრამაში, როგორიცაა ხმის ასისტენტის სისტემები, სახლის ავტომატიზაცია, ხმაზე დაფუძნებული ჩეთბოტები, ხმოვანი ინტერაქტიული რობოტი, ხელოვნური ინტელექტი და ა.
არსებობს სხვადასხვა API (აპლიკაციის პროგრამირების ინტერფეისი) მეტყველების ამოცნობისთვის. ისინი გვთავაზობენ უფასო ან ფასიან მომსახურებას. Ესენი არიან:
- CMU სფინქსი
- Google მეტყველების ამოცნობა
- Google Cloud Speech API
- ვიტ.აი
- Microsoft Bing ხმის ამოცნობა
- Houndify API
- IBM გამოსვლა ტექსტზე
- სნოუბოის ცხელი სიტყვის გამოვლენა
ჩვენ აქ გამოვიყენებთ Google მეტყველების ამოცნობას, რადგან ის არ საჭიროებს API გასაღებს. ეს გაკვეთილი მიზნად ისახავს გაეცნოს როგორ გამოიყენოს Google Speech Recognition ბიბლიოთეკა პითონში გარე მიკროფონის დახმარებით, როგორიცაა ReSpeaker USB 4-Mic Array from Seeed Studio. მიუხედავად იმისა, რომ არ არის სავალდებულო გარე მიკროფონის გამოყენება, ლეპტოპის ჩაშენებული მიკროფონიც კი შეიძლება გამოყენებულ იქნას.
ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი
ReSpeaker USB Mic არის ოთხ მიკროფონიანი მოწყობილობა, რომელიც შექმნილია AI და ხმოვანი პროგრამებისთვის, რომელიც შემუშავებულია Seeed Studio– ს მიერ. მას აქვს 4 მაღალი ხარისხის, ჩამონტაჟებული ყოვლისმომცველი მიკროფონი, რომელიც შექმნილია თქვენი ხმის ამოსაღებად ოთახის ნებისმიერი ადგილიდან და 12 პროგრამირებადი RGB LED ინდიკატორი. ReSpeaker USB მიკროფონი მხარს უჭერს Linux, macOS და Windows ოპერაციულ სისტემებს. დეტალები შეგიძლიათ იხილოთ აქ.
ReSpeaker USB Mic მოდის სასიამოვნო პაკეტში, რომელიც შეიცავს შემდეგ ნივთებს:
- მომხმარებლის სახელმძღვანელო
- ReSpeaker USB Mic Array
- მიკრო USB USB კაბელი
ასე რომ, ჩვენ მზად ვართ დავიწყოთ.
ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები
ამ გაკვეთილისთვის, ვივარაუდებ, რომ თქვენ იყენებთ Python 3.x.
მოდით დავაყენოთ ბიბლიოთეკები:
pip3 დააინსტალირეთ SpeechRecognition
MacOS– ისთვის, ჯერ დაგჭირდებათ PortAudio– ს დაყენება Homebrew– ით, შემდეგ კი PyAudio– ს დაყენება pip3– ით:
brew დააინსტალირეთ portaudio
ჩვენ ვუშვებთ ქვემოთ ბრძანებას pyaudio– ს ინსტალაციისთვის
pip3 დააინსტალირეთ pyaudio
Linux– ისთვის შეგიძლიათ დააინსტალიროთ PyAudio apt– ით:
sudo apt-get დააინსტალირეთ python-pyaudio python3-pyaudio
Windows– ისთვის შეგიძლიათ დააინსტალიროთ PyAudio პიპით:
pip დააინსტალირეთ pyaudio
შექმენით პითონის ახალი ფაილი
nano get_index.py
ჩასვით get_index.py ქვემოთ კოდის ფრაგმენტი:
პიადიოს იმპორტი
p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: ბეჭდვა ("შეყვანის მოწყობილობის ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))
გაუშვით შემდეგი ბრძანება:
python3 get_index.py
ჩემს შემთხვევაში, ბრძანება აძლევს შემდეგ გამომავალს ეკრანზე:
შეყვანის მოწყობილობა id 1 - ReSpeaker 4 Mic Array (UAC1.0)
შეყვანის მოწყობილობის id 2 - MacBook Air მიკროფონი
შეცვალეთ მოწყობილობა_ინდექსი ინდექსის ნომრად თქვენი არჩევანის მიხედვით კოდის ქვედა ნაწილში.
სიტყვის_ღიარების შემოტანა sr
r = sr. Recognizer () speech = sr. Microphone (device_index = 1) სიტყვით, როგორც წყარო: print ("say something!…") audio = r.adjust_for_ambient_noise (source) audio = r. listenen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) გარდა sr. UnknownValueError: print ("Google Speech Recognition could not understand audio") გარდა sr. RequestError როგორც e: print ("შედეგების მოთხოვნა Google Speech Recognition სერვისისგან; {0}". ფორმატი (ე))
მოწყობილობის ინდექსი არჩეულია 1 იმის გამო, რომ ReSpeaker 4 Mic Array იქნება მთავარი წყარო.
ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით
არსებობს რამდენიმე API, პითონში ტექსტის მეტყველებად გადასაყვანად. ერთ-ერთი ასეთი API არის pyttsx3, რომელიც არის საუკეთესო ხელმისაწვდომი ტექსტის მეტყველების პაკეტი ჩემი აზრით. ეს პაკეტი მუშაობს Windows, Mac და Linux– ში. შეამოწმეთ ოფიციალური დოკუმენტაცია, რომ ნახოთ როგორ კეთდება ეს.
დააინსტალირეთ პაკეტი გამოიყენეთ პაპი პაკეტის დასაყენებლად.
pip დააინსტალირეთ pyttsx3
თუ Windows- ში ხართ, დაგჭირდებათ დამატებითი პაკეტი, pypiwin32, რომელიც მას დასჭირდება Windows- ის მეტყველების API- ზე წვდომისათვის.
pip დააინსტალირეთ pypiwin32
ტექსტის მეტყველების პითონის სკრიპტად გადაყვანა ქვემოთ მოცემულია კოდის ფრაგმენტი ტექსტის მეტყველებაში pyttsx3 გამოყენებით:
იმპორტი pyttsx3
ძრავა = pyttsx3.init ()
engine.setProperty ('განაკვეთი', 150) # სიჩქარის პროცენტი
engine.setProperty ('ტომი', 0.9) # ტომი 0-1
engine.say ("გამარჯობა, მსოფლიო!")
engine.runAndWait ()
ნაბიჯი 4: ამ ყველაფრის ერთად შედგენა: მეტყველების ამოცნობის დამყარება პითონთან Google მეტყველების ამოცნობის API და Pyttsx3 ბიბლიოთეკის გამოყენებით
ქვემოთ მოყვანილი კოდი პასუხისმგებელია ადამიანის მეტყველების ამოცნობაზე Google Speech Recognition და ტექსტის მეტყველებაში pyttsx3 ბიბლიოთეკის გამოყენებით.
სიტყვის_ღიარების შემოტანა sr
იმპორტი pyttsx3 ძრავა = pyttsx3.init () engine.setProperty ('განაკვეთი', 200) engine.setProperty ('მოცულობა', 0.9) r = sr. Recognizer () speech = sr. მიკროფონი (device_index = 1) მეტყველების წყაროს სახით: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) engine.say (" თქვენ თქვით: " + recog) engine.runAndWait () გარდა sr. UnknownValueError: engine.say (" Google Speech Recognition ვერ გაიგო აუდიო ") engine.runAndWait () გარდა sr. RequestError როგორც e: engine.say (" ვერ მოითხოვეთ შედეგები Google მეტყველების ამოცნობის სერვისიდან; {0} ". ფორმატი (ე)) engine.runAndWait ()
ის დაბეჭდავს გამომავალ ტერმინალს. ასევე, ის გადაიქცევა მეტყველებაშიც.
თქვენ თქვით: ლონდონი არის დიდი ბრიტანეთის დედაქალაქი
ვიმედოვნებ, რომ თქვენ ახლა უკეთ გესმით, თუ როგორ მუშაობს მეტყველების ამოცნობა ზოგადად და რაც მთავარია, როგორ უნდა განახორციელოთ ის Google Speech Recognition API– ს პითონთან ერთად.
თუ გაქვთ რაიმე შეკითხვა ან გამოხმაურება? დატოვეთ კომენტარი ქვემოთ. Ადევნეთ თვალყური!
გირჩევთ:
მეტყველების ამოცნობა Arduino– ით (Bluetooth + LCD + Android): 6 ნაბიჯი
მეტყველების ამოცნობა Arduino– ით (Bluetooth + LCD + Android): ამ პროექტში ჩვენ ვაპირებთ გავაკეთოთ მეტყველების ამოცნობა Arduino– ით, Bluetooth მოდულით (HC-05) და LCD– ით. მოდით შევქმნათ თქვენი მეტყველების ამოცნობის მოწყობილობა
Opencv სახის ამოცნობა, სწავლება და ამოცნობა: 3 ნაბიჯი
Opencv სახის ამოცნობა, სწავლება და ამოცნობა: OpenCV არის ღია კოდის კომპიუტერული ხედვის ბიბლიოთეკა, რომელიც ძალიან პოპულარულია გამოსახულების დამუშავების ძირითადი ამოცანების შესასრულებლად, როგორიცაა დაბინდვა, სურათის შერწყმა, სურათის გაძლიერება, ასევე ვიდეოს ხარისხი, ბარიერი და ა.შ. სურათის დამუშავების გარდა, ეს პროვოცირებს
სახის ამოცნობა და ამოცნობა - Arduino Face ID OpenCV პითონისა და Arduino– ს გამოყენებით .: 6 ნაბიჯი
სახის ამოცნობა და ამოცნობა | Arduino Face ID OpenCV პითონისა და არდუინოს გამოყენებით: სახის ამოცნობა AKA face ID არის ერთ -ერთი ყველაზე მნიშვნელოვანი ფუნქცია მობილურ ტელეფონებზე დღეს. ასე რომ, მე მქონდა შეკითხვა " შემიძლია ვიპოვო სახის ID ჩემი Arduino პროექტისთვის " და პასუხი არის დიახ … ჩემი მოგზაურობა დაიწყო შემდეგნაირად: ნაბიჯი 1: ჩვენთან წვდომა
მეტყველების ამოცნობა: 12 ნაბიჯი
მეტყველების აღიარებელი: გამარჯობა ყველას ………. ეს არის ჩემი მეორე სასწავლო ინსტრუქცია, რომელსაც მე ვაქვეყნებ. ასე რომ მივესალმები ყველას ….. ამ ინსტრუქციაში მე გასწავლით თუ როგორ უნდა ავაშენოთ ხმის ამოცნობა არდუინოს დაფის გამოყენებით. ასე რომ, მე ვფიქრობ, რომ თქვენ გაქვთ გამოცდილება არდუინოს ღორთან
სახის ამოცნობა+ამოცნობა: 8 ნაბიჯი (სურათებით)
სახის გამოვლენა+ამოცნობა: ეს არის მარტივი ამოცანა სახის გამოვლენისა და ამოცნობის შესახებ OpenCV კამერით. შენიშვნა: მე გავაკეთე ეს პროექტი სენსორული კონკურსისთვის და გამოვიყენე კამერა, როგორც სენსორი თვალყურის დევნისა და აღიარების სახეებისთვის. ასე რომ, ჩვენი მიზანი ამ სესიაზე, 1. დააინსტალირეთ ანაკონდა