მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი

Სარჩევი:

ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი
ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები
ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით
ნაბიჯი 4: ამ ყველაფრის ერთად შედგენა: მეტყველების ამოცნობის დამყარება პითონთან Google მეტყველების ამოცნობის API და Pyttsx3 ბიბლიოთეკის გამოყენებით

2025 ავტორი: John Day | [email protected]. ბოლოს შეცვლილი: 2025-06-01 06:09

მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით

Სიტყვის აღიარება

მეტყველების ამოცნობა არის ბუნებრივი ენის დამუშავების ნაწილი, რომელიც წარმოადგენს ხელოვნური ინტელექტის ქვეგანყოფილებას. მარტივად რომ ვთქვათ, მეტყველების ამოცნობა არის კომპიუტერული პროგრამული უზრუნველყოფის უნარი ამოიცნოს სიტყვები და ფრაზები სალაპარაკო ენაზე და გადააკეთოს ისინი ადამიანის წაკითხვად ტექსტად. იგი გამოიყენება რამდენიმე პროგრამაში, როგორიცაა ხმის ასისტენტის სისტემები, სახლის ავტომატიზაცია, ხმაზე დაფუძნებული ჩეთბოტები, ხმოვანი ინტერაქტიული რობოტი, ხელოვნური ინტელექტი და ა.

არსებობს სხვადასხვა API (აპლიკაციის პროგრამირების ინტერფეისი) მეტყველების ამოცნობისთვის. ისინი გვთავაზობენ უფასო ან ფასიან მომსახურებას. Ესენი არიან:

CMU სფინქსი
Google მეტყველების ამოცნობა
Google Cloud Speech API
ვიტ.აი
Microsoft Bing ხმის ამოცნობა
Houndify API
IBM გამოსვლა ტექსტზე
სნოუბოის ცხელი სიტყვის გამოვლენა

ჩვენ აქ გამოვიყენებთ Google მეტყველების ამოცნობას, რადგან ის არ საჭიროებს API გასაღებს. ეს გაკვეთილი მიზნად ისახავს გაეცნოს როგორ გამოიყენოს Google Speech Recognition ბიბლიოთეკა პითონში გარე მიკროფონის დახმარებით, როგორიცაა ReSpeaker USB 4-Mic Array from Seeed Studio. მიუხედავად იმისა, რომ არ არის სავალდებულო გარე მიკროფონის გამოყენება, ლეპტოპის ჩაშენებული მიკროფონიც კი შეიძლება გამოყენებულ იქნას.

ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი

ReSpeaker USB Mic არის ოთხ მიკროფონიანი მოწყობილობა, რომელიც შექმნილია AI და ხმოვანი პროგრამებისთვის, რომელიც შემუშავებულია Seeed Studio- ს მიერ. მას აქვს 4 მაღალი ხარისხის, ჩამონტაჟებული ყოვლისმომცველი მიკროფონი, რომელიც შექმნილია თქვენი ხმის ამოსაღებად ოთახის ნებისმიერი ადგილიდან და 12 პროგრამირებადი RGB LED ინდიკატორი. ReSpeaker USB მიკროფონი მხარს უჭერს Linux, macOS და Windows ოპერაციულ სისტემებს. დეტალები შეგიძლიათ იხილოთ აქ.

ReSpeaker USB Mic მოდის სასიამოვნო პაკეტში, რომელიც შეიცავს შემდეგ ნივთებს:

მომხმარებლის სახელმძღვანელო
ReSpeaker USB Mic Array
მიკრო USB USB კაბელი

ასე რომ, ჩვენ მზად ვართ დავიწყოთ.

ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები

ამ გაკვეთილისთვის, ვივარაუდებ, რომ თქვენ იყენებთ Python 3.x.

მოდით დავაყენოთ ბიბლიოთეკები:

pip3 დააინსტალირეთ SpeechRecognition

MacOS- ისთვის, ჯერ დაგჭირდებათ PortAudio- ს დაყენება Homebrew- ით, შემდეგ კი PyAudio- ს დაყენება pip3- ით:

brew დააინსტალირეთ portaudio

ჩვენ ვუშვებთ ქვემოთ ბრძანებას pyaudio- ს ინსტალაციისთვის

pip3 დააინსტალირეთ pyaudio

Linux- ისთვის შეგიძლიათ დააინსტალიროთ PyAudio apt- ით:

sudo apt-get დააინსტალირეთ python-pyaudio python3-pyaudio

Windows- ისთვის შეგიძლიათ დააინსტალიროთ PyAudio პიპით:

pip დააინსტალირეთ pyaudio

შექმენით პითონის ახალი ფაილი

nano get_index.py

ჩასვით get_index.py ქვემოთ კოდის ფრაგმენტი:

პიადიოს იმპორტი

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: ბეჭდვა ("შეყვანის მოწყობილობის ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

გაუშვით შემდეგი ბრძანება:

python3 get_index.py

ჩემს შემთხვევაში, ბრძანება აძლევს შემდეგ გამომავალს ეკრანზე:

შეყვანის მოწყობილობა id 1 - ReSpeaker 4 Mic Array (UAC1.0)

შეყვანის მოწყობილობის id 2 - MacBook Air მიკროფონი

შეცვალეთ მოწყობილობა_ინდექსი ინდექსის ნომრად თქვენი არჩევანის მიხედვით კოდის ქვედა ნაწილში.

სიტყვის_ღიარების შემოტანა sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) სიტყვით, როგორც წყარო: print ("say something!…") audio = r.adjust_for_ambient_noise (source) audio = r. listenen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) გარდა sr. UnknownValueError: print ("Google Speech Recognition could not understand audio") გარდა sr. RequestError როგორც e: print ("შედეგების მოთხოვნა Google Speech Recognition სერვისისგან; {0}". ფორმატი (ე))

მოწყობილობის ინდექსი არჩეულია 1 იმის გამო, რომ ReSpeaker 4 Mic Array იქნება მთავარი წყარო.

ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით

არსებობს რამდენიმე API, პითონში ტექსტის მეტყველებად გადასაყვანად. ერთ-ერთი ასეთი API არის pyttsx3, რომელიც არის საუკეთესო ხელმისაწვდომი ტექსტის მეტყველების პაკეტი ჩემი აზრით. ეს პაკეტი მუშაობს Windows, Mac და Linux- ში. შეამოწმეთ ოფიციალური დოკუმენტაცია, რომ ნახოთ როგორ კეთდება ეს.

დააინსტალირეთ პაკეტი გამოიყენეთ პაპი პაკეტის დასაყენებლად.

pip დააინსტალირეთ pyttsx3

თუ Windows- ში ხართ, დაგჭირდებათ დამატებითი პაკეტი, pypiwin32, რომელიც მას დასჭირდება Windows- ის მეტყველების API- ზე წვდომისათვის.

pip დააინსტალირეთ pypiwin32

ტექსტის მეტყველების პითონის სკრიპტად გადაყვანა ქვემოთ მოცემულია კოდის ფრაგმენტი ტექსტის მეტყველებაში pyttsx3 გამოყენებით:

იმპორტი pyttsx3

ძრავა = pyttsx3.init ()

engine.setProperty ('განაკვეთი', 150) # სიჩქარის პროცენტი

engine.setProperty ('ტომი', 0.9) # ტომი 0-1

engine.say ("გამარჯობა, მსოფლიო!")

engine.runAndWait ()

ნაბიჯი 4: ამ ყველაფრის ერთად შედგენა: მეტყველების ამოცნობის დამყარება პითონთან Google მეტყველების ამოცნობის API და Pyttsx3 ბიბლიოთეკის გამოყენებით

ქვემოთ მოყვანილი კოდი პასუხისმგებელია ადამიანის მეტყველების ამოცნობაზე Google Speech Recognition და ტექსტის მეტყველებაში pyttsx3 ბიბლიოთეკის გამოყენებით.

სიტყვის_ღიარების შემოტანა sr

იმპორტი pyttsx3 ძრავა = pyttsx3.init () engine.setProperty ('განაკვეთი', 200) engine.setProperty ('მოცულობა', 0.9) r = sr. Recognizer () speech = sr. მიკროფონი (device_index = 1) მეტყველების წყაროს სახით: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) engine.say (" თქვენ თქვით: " + recog) engine.runAndWait () გარდა sr. UnknownValueError: engine.say (" Google Speech Recognition ვერ გაიგო აუდიო ") engine.runAndWait () გარდა sr. RequestError როგორც e: engine.say (" ვერ მოითხოვეთ შედეგები Google მეტყველების ამოცნობის სერვისიდან; {0} ". ფორმატი (ე)) engine.runAndWait ()

ის დაბეჭდავს გამომავალ ტერმინალს. ასევე, ის გადაიქცევა მეტყველებაშიც.

თქვენ თქვით: ლონდონი არის დიდი ბრიტანეთის დედაქალაქი

ვიმედოვნებ, რომ თქვენ ახლა უკეთ გესმით, თუ როგორ მუშაობს მეტყველების ამოცნობა ზოგადად და რაც მთავარია, როგორ უნდა განახორციელოთ ის Google Speech Recognition API- ს პითონთან ერთად.

თუ გაქვთ რაიმე შეკითხვა ან გამოხმაურება? დატოვეთ კომენტარი ქვემოთ. Ადევნეთ თვალყური!

გირჩევთ:

მეტყველების ამოცნობა Arduino– ით (Bluetooth + LCD + Android): 6 ნაბიჯი

მეტყველების ამოცნობა Arduino– ით (Bluetooth + LCD + Android): ამ პროექტში ჩვენ ვაპირებთ გავაკეთოთ მეტყველების ამოცნობა Arduino– ით, Bluetooth მოდულით (HC-05) და LCD– ით. მოდით შევქმნათ თქვენი მეტყველების ამოცნობის მოწყობილობა

Opencv სახის ამოცნობა, სწავლება და ამოცნობა: 3 ნაბიჯი

Opencv სახის ამოცნობა, სწავლება და ამოცნობა: OpenCV არის ღია კოდის კომპიუტერული ხედვის ბიბლიოთეკა, რომელიც ძალიან პოპულარულია გამოსახულების დამუშავების ძირითადი ამოცანების შესასრულებლად, როგორიცაა დაბინდვა, სურათის შერწყმა, სურათის გაძლიერება, ასევე ვიდეოს ხარისხი, ბარიერი და ა.შ. სურათის დამუშავების გარდა, ეს პროვოცირებს

სახის ამოცნობა და ამოცნობა - Arduino Face ID OpenCV პითონისა და Arduino– ს გამოყენებით .: 6 ნაბიჯი

სახის ამოცნობა და ამოცნობა | Arduino Face ID OpenCV პითონისა და არდუინოს გამოყენებით: სახის ამოცნობა AKA face ID არის ერთ -ერთი ყველაზე მნიშვნელოვანი ფუნქცია მობილურ ტელეფონებზე დღეს. ასე რომ, მე მქონდა შეკითხვა " შემიძლია ვიპოვო სახის ID ჩემი Arduino პროექტისთვის " და პასუხი არის დიახ … ჩემი მოგზაურობა დაიწყო შემდეგნაირად: ნაბიჯი 1: ჩვენთან წვდომა

მეტყველების ამოცნობა: 12 ნაბიჯი

მეტყველების აღიარებელი: გამარჯობა ყველას ………. ეს არის ჩემი მეორე სასწავლო ინსტრუქცია, რომელსაც მე ვაქვეყნებ. ასე რომ მივესალმები ყველას ….. ამ ინსტრუქციაში მე გასწავლით თუ როგორ უნდა ავაშენოთ ხმის ამოცნობა არდუინოს დაფის გამოყენებით. ასე რომ, მე ვფიქრობ, რომ თქვენ გაქვთ გამოცდილება არდუინოს ღორთან

სახის ამოცნობა+ამოცნობა: 8 ნაბიჯი (სურათებით)

სახის გამოვლენა+ამოცნობა: ეს არის მარტივი ამოცანა სახის გამოვლენისა და ამოცნობის შესახებ OpenCV კამერით. შენიშვნა: მე გავაკეთე ეს პროექტი სენსორული კონკურსისთვის და გამოვიყენე კამერა, როგორც სენსორი თვალყურის დევნისა და აღიარების სახეებისთვის. ასე რომ, ჩვენი მიზანი ამ სესიაზე, 1. დააინსტალირეთ ანაკონდა

მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი

Სარჩევი:

Სიტყვის აღიარება

ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი

ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები

ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით

გირჩევთ:

მეტყველების ამოცნობა Arduino– ით (Bluetooth + LCD + Android): 6 ნაბიჯი

Opencv სახის ამოცნობა, სწავლება და ამოცნობა: 3 ნაბიჯი

სახის ამოცნობა და ამოცნობა - Arduino Face ID OpenCV პითონისა და Arduino– ს გამოყენებით .: 6 ნაბიჯი

მეტყველების ამოცნობა: 12 ნაბიჯი

სახის ამოცნობა+ამოცნობა: 8 ნაბიჯი (სურათებით)

სიკაშკაშის კონტროლი, არდუინო (ანიმაციებით): 7 ნაბიჯი

ავტონომიური ფიქსირებული ფრთის მიწოდების დრონი (3D ბეჭდვით): 7 ნაბიჯი (სურათებით)

ზუსტი საათი: 3 ნაბიჯი

სინათლის ინდიკატორი არდუინოს გამოყენებით: 4 ნაბიჯი

DIY NE555 მიკროსქემის შესაქმნელად სინუსური ტალღის შესაქმნელად: 6 ნაბიჯი

Omegle მდებარეობა Prank ერთად მავთულის ზვიგენი: 4 ნაბიჯი

მზის ენერგიით აღჭურვილი მარნის განათება: 5 ნაბიჯი

როგორ შევქმნათ .hex ფაილი Arduino IDE– დან, მოდელირება მოახდინეთ Arduino– ზე Proteus– ზე: 3 ნაბიჯი

Android/iOS აპლიკაცია თქვენს OpenWrt როუტერზე დისტანციურად წვდომისათვის: 11 ნაბიჯი

სტატიკური ელექტროენერგიის საზომი საგანგებო განათების სისტემა: 8 ნაბიჯი

თითის ანაბეჭდის დაცული ყუთი: 4 ნაბიჯი

Kit Ciencia Y Arte: Cómo Cargar Código Al სათამაშო მოედანი: 4 ნაბიჯი

LED ვარსკვლავი: 7 ნაბიჯი (სურათებით)

Arduino Led Strip გულისცემის საპასუხო სენსორი: 5 ნაბიჯი

LDR Thingsai Cloud– ის გამოყენებით: 13 ნაბიჯი

(DIY) როგორ გააკეთოთ ESP8266 ულტრა მინი და მარტივი სარელეო სახლის ავტომატიზაციის დაფა: 17 ნაბიჯი