Სარჩევი:

მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი
მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი

ვიდეო: მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი

ვიდეო: მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით: 4 ნაბიჯი
ვიდეო: ChatGPT ფენომენი: როგორ ცვლის ხელოვნური ინტელექტი დეველოპერის ლანდშაფტს! 2024, ივლისი
Anonim
მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით
მეტყველების ამოცნობა Google Speech API და პითონის გამოყენებით

Სიტყვის აღიარება

მეტყველების ამოცნობა არის ბუნებრივი ენის დამუშავების ნაწილი, რომელიც წარმოადგენს ხელოვნური ინტელექტის ქვეგანყოფილებას. მარტივად რომ ვთქვათ, მეტყველების ამოცნობა არის კომპიუტერული პროგრამული უზრუნველყოფის უნარი ამოიცნოს სიტყვები და ფრაზები სალაპარაკო ენაზე და გადააკეთოს ისინი ადამიანის წაკითხვად ტექსტად. იგი გამოიყენება რამდენიმე პროგრამაში, როგორიცაა ხმის ასისტენტის სისტემები, სახლის ავტომატიზაცია, ხმაზე დაფუძნებული ჩეთბოტები, ხმოვანი ინტერაქტიული რობოტი, ხელოვნური ინტელექტი და ა.

არსებობს სხვადასხვა API (აპლიკაციის პროგრამირების ინტერფეისი) მეტყველების ამოცნობისთვის. ისინი გვთავაზობენ უფასო ან ფასიან მომსახურებას. Ესენი არიან:

  • CMU სფინქსი
  • Google მეტყველების ამოცნობა
  • Google Cloud Speech API
  • ვიტ.აი
  • Microsoft Bing ხმის ამოცნობა
  • Houndify API
  • IBM გამოსვლა ტექსტზე
  • სნოუბოის ცხელი სიტყვის გამოვლენა

ჩვენ აქ გამოვიყენებთ Google მეტყველების ამოცნობას, რადგან ის არ საჭიროებს API გასაღებს. ეს გაკვეთილი მიზნად ისახავს გაეცნოს როგორ გამოიყენოს Google Speech Recognition ბიბლიოთეკა პითონში გარე მიკროფონის დახმარებით, როგორიცაა ReSpeaker USB 4-Mic Array from Seeed Studio. მიუხედავად იმისა, რომ არ არის სავალდებულო გარე მიკროფონის გამოყენება, ლეპტოპის ჩაშენებული მიკროფონიც კი შეიძლება გამოყენებულ იქნას.

ნაბიჯი 1: ReSpeaker USB 4-Mic მასივი

ReSpeaker USB 4-Mic მასივი
ReSpeaker USB 4-Mic მასივი
ReSpeaker USB 4-Mic მასივი
ReSpeaker USB 4-Mic მასივი
ReSpeaker USB 4-Mic მასივი
ReSpeaker USB 4-Mic მასივი

ReSpeaker USB Mic არის ოთხ მიკროფონიანი მოწყობილობა, რომელიც შექმნილია AI და ხმოვანი პროგრამებისთვის, რომელიც შემუშავებულია Seeed Studio– ს მიერ. მას აქვს 4 მაღალი ხარისხის, ჩამონტაჟებული ყოვლისმომცველი მიკროფონი, რომელიც შექმნილია თქვენი ხმის ამოსაღებად ოთახის ნებისმიერი ადგილიდან და 12 პროგრამირებადი RGB LED ინდიკატორი. ReSpeaker USB მიკროფონი მხარს უჭერს Linux, macOS და Windows ოპერაციულ სისტემებს. დეტალები შეგიძლიათ იხილოთ აქ.

ReSpeaker USB Mic მოდის სასიამოვნო პაკეტში, რომელიც შეიცავს შემდეგ ნივთებს:

  • მომხმარებლის სახელმძღვანელო
  • ReSpeaker USB Mic Array
  • მიკრო USB USB კაბელი

ასე რომ, ჩვენ მზად ვართ დავიწყოთ.

ნაბიჯი 2: დააინსტალირეთ საჭირო ბიბლიოთეკები

ამ გაკვეთილისთვის, ვივარაუდებ, რომ თქვენ იყენებთ Python 3.x.

მოდით დავაყენოთ ბიბლიოთეკები:

pip3 დააინსტალირეთ SpeechRecognition

MacOS– ისთვის, ჯერ დაგჭირდებათ PortAudio– ს დაყენება Homebrew– ით, შემდეგ კი PyAudio– ს დაყენება pip3– ით:

brew დააინსტალირეთ portaudio

ჩვენ ვუშვებთ ქვემოთ ბრძანებას pyaudio– ს ინსტალაციისთვის

pip3 დააინსტალირეთ pyaudio

Linux– ისთვის შეგიძლიათ დააინსტალიროთ PyAudio apt– ით:

sudo apt-get დააინსტალირეთ python-pyaudio python3-pyaudio

Windows– ისთვის შეგიძლიათ დააინსტალიროთ PyAudio პიპით:

pip დააინსტალირეთ pyaudio

შექმენით პითონის ახალი ფაილი

nano get_index.py

ჩასვით get_index.py ქვემოთ კოდის ფრაგმენტი:

პიადიოს იმპორტი

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: ბეჭდვა ("შეყვანის მოწყობილობის ID", i, " -", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

გაუშვით შემდეგი ბრძანება:

python3 get_index.py

ჩემს შემთხვევაში, ბრძანება აძლევს შემდეგ გამომავალს ეკრანზე:

შეყვანის მოწყობილობა id 1 - ReSpeaker 4 Mic Array (UAC1.0)

შეყვანის მოწყობილობის id 2 - MacBook Air მიკროფონი

შეცვალეთ მოწყობილობა_ინდექსი ინდექსის ნომრად თქვენი არჩევანის მიხედვით კოდის ქვედა ნაწილში.

სიტყვის_ღიარების შემოტანა sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) სიტყვით, როგორც წყარო: print ("say something!…") audio = r.adjust_for_ambient_noise (source) audio = r. listenen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) გარდა sr. UnknownValueError: print ("Google Speech Recognition could not understand audio") გარდა sr. RequestError როგორც e: print ("შედეგების მოთხოვნა Google Speech Recognition სერვისისგან; {0}". ფორმატი (ე))

მოწყობილობის ინდექსი არჩეულია 1 იმის გამო, რომ ReSpeaker 4 Mic Array იქნება მთავარი წყარო.

ნაბიჯი 3: ტექსტის მეტყველება პითონში Pyttsx3 ბიბლიოთეკით

არსებობს რამდენიმე API, პითონში ტექსტის მეტყველებად გადასაყვანად. ერთ-ერთი ასეთი API არის pyttsx3, რომელიც არის საუკეთესო ხელმისაწვდომი ტექსტის მეტყველების პაკეტი ჩემი აზრით. ეს პაკეტი მუშაობს Windows, Mac და Linux– ში. შეამოწმეთ ოფიციალური დოკუმენტაცია, რომ ნახოთ როგორ კეთდება ეს.

დააინსტალირეთ პაკეტი გამოიყენეთ პაპი პაკეტის დასაყენებლად.

pip დააინსტალირეთ pyttsx3

თუ Windows- ში ხართ, დაგჭირდებათ დამატებითი პაკეტი, pypiwin32, რომელიც მას დასჭირდება Windows- ის მეტყველების API- ზე წვდომისათვის.

pip დააინსტალირეთ pypiwin32

ტექსტის მეტყველების პითონის სკრიპტად გადაყვანა ქვემოთ მოცემულია კოდის ფრაგმენტი ტექსტის მეტყველებაში pyttsx3 გამოყენებით:

იმპორტი pyttsx3

ძრავა = pyttsx3.init ()

engine.setProperty ('განაკვეთი', 150) # სიჩქარის პროცენტი

engine.setProperty ('ტომი', 0.9) # ტომი 0-1

engine.say ("გამარჯობა, მსოფლიო!")

engine.runAndWait ()

ნაბიჯი 4: ამ ყველაფრის ერთად შედგენა: მეტყველების ამოცნობის დამყარება პითონთან Google მეტყველების ამოცნობის API და Pyttsx3 ბიბლიოთეკის გამოყენებით

ქვემოთ მოყვანილი კოდი პასუხისმგებელია ადამიანის მეტყველების ამოცნობაზე Google Speech Recognition და ტექსტის მეტყველებაში pyttsx3 ბიბლიოთეკის გამოყენებით.

სიტყვის_ღიარების შემოტანა sr

იმპორტი pyttsx3 ძრავა = pyttsx3.init () engine.setProperty ('განაკვეთი', 200) engine.setProperty ('მოცულობა', 0.9) r = sr. Recognizer () speech = sr. მიკროფონი (device_index = 1) მეტყველების წყაროს სახით: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("თქვენ თქვით:" + recog) engine.say (" თქვენ თქვით: " + recog) engine.runAndWait () გარდა sr. UnknownValueError: engine.say (" Google Speech Recognition ვერ გაიგო აუდიო ") engine.runAndWait () გარდა sr. RequestError როგორც e: engine.say (" ვერ მოითხოვეთ შედეგები Google მეტყველების ამოცნობის სერვისიდან; {0} ". ფორმატი (ე)) engine.runAndWait ()

ის დაბეჭდავს გამომავალ ტერმინალს. ასევე, ის გადაიქცევა მეტყველებაშიც.

თქვენ თქვით: ლონდონი არის დიდი ბრიტანეთის დედაქალაქი

ვიმედოვნებ, რომ თქვენ ახლა უკეთ გესმით, თუ როგორ მუშაობს მეტყველების ამოცნობა ზოგადად და რაც მთავარია, როგორ უნდა განახორციელოთ ის Google Speech Recognition API– ს პითონთან ერთად.

თუ გაქვთ რაიმე შეკითხვა ან გამოხმაურება? დატოვეთ კომენტარი ქვემოთ. Ადევნეთ თვალყური!

გირჩევთ: