Spraakherkenning begrijpen

Probeer Ons Instrument Voor Het Oplossen Van Problemen





Stel je voor dat je ontspannen op de bank zit en gewoon je computer, laptop of mobiele telefoon bestelt om eenvoudige taken uit te voeren, zoals een letter typen of een paar opdrachten uitvoeren. Is dit mogelijk?

Dat is het natuurlijk, dat is waar spraakherkenning in beeld komt.




Volgens de definitie is het het proces van herkenning van menselijke spraak en het decoderen in tekstvorm.

Beginsel

Het basisprincipe van Spraakherkenning houdt in dat spraak of woorden die door een mens worden gesproken, trillingen in de lucht veroorzaken, ook wel geluidsgolven genoemd. Deze continue of analoge golven worden gedigitaliseerd en verwerkt en vervolgens gedecodeerd tot de juiste woorden en vervolgens de juiste zinnen.



Spraakherkenning

Onderdelen van een spraakherkenningssysteem

Dus waar bestaat een basis spraakherkenningssysteem uit?

Onderdelen van een spraakherkenningssysteem

  • Een spraakopnameapparaat : Het bestaat uit een microfoon die de geluidsgolfsignalen omzet in elektrische signalen en een analoog naar digitaal converter die de analoge signalen samplet en digitaliseert om de discrete gegevens te verkrijgen die de computer kan begrijpen.
  • Een digitale signaalmodule of een processor : Het voert verwerking uit op het onbewerkte spraaksignaal, zoals conversie van het frequentiedomein, waarbij alleen de vereiste informatie wordt hersteld, enz.
  • Voorverwerkte signaalopslag : De voorverwerkte spraak wordt in het geheugen opgeslagen om verdere spraakherkenningstaken uit te voeren.
  • Referentie Spraakpatronen : De computer of het systeem bestaat uit vooraf gedefinieerde spraakpatronen of sjablonen die al in het geheugen zijn opgeslagen en die als referentie voor het matchen kunnen worden gebruikt.
  • Algoritme voor patroonovereenkomst : Het onbekende spraaksignaal wordt vergeleken met het referentiespraakpatroon om de feitelijke woorden of het patroon van woorden te bepalen.
Werking van het systeem

Laten we nu eens kijken hoe het hele systeem werkelijk werkt.


Werking van het systeem

  • Een spraak kan worden gezien als een akoestische golfvorm, d.w.z. signaal met berichtinformatie. Een normaal mens met de beperkte bewegingssnelheid van zijn / haar articulatoren (spraakorganen) kan spraak produceren met een gemiddelde snelheid van 10 geluiden per seconde. De gemiddelde informatiesnelheid is ongeveer 50-60 bits / seconde. Het betekent dat eigenlijk slechts 50 bits / seconde aan informatie nodig is in het spraaksignaal. Deze akoestische golfvorm wordt door de microfoon omgezet in analoge elektrische signalen. De analoog naar digitaal converter zet dit analoge signaal om in digitale samples door nauwkeurige metingen van de golf met discrete intervallen.
  • Het gedigitaliseerde signaal bestaat uit een stroom periodieke signalen die 16.000 keer per seconde worden bemonsterd en is niet geschikt om daadwerkelijk uit te voeren. spraakherkenning proces omdat het patroon niet gemakkelijk kan worden gevonden. Om de feitelijke informatie te extraheren, wordt het signaal in het tijdsdomein omgezet in een signaal in het frequentiedomein. Dit wordt gedaan door de digitale signaalprocessor met behulp van de FFT-techniek. In het digitale signaal komt de component na elke 1/100thvan een seconde wordt geanalyseerd en het frequentiespectrum voor elk van deze componenten wordt berekend. Met andere woorden, het gedigitaliseerde signaal wordt opgedeeld in kleine delen van frequentie-amplitudes.
  • Elk segment of de frequentiegrafiek vertegenwoordigt de verschillende geluiden die door mensen worden gemaakt. De computer zorgt voor het matchen van de onbekende segmenten met de opgeslagen fonetiek van de betreffende taal. Deze patroonafstemming gebeurt op 3 manieren:

Gebruikmakend van een akoestische fonetische benadering : Bij de akoestische fonetische benadering wordt over het algemeen het Hidden Markov-model gebruikt. Dit model ontwikkelt een niet-deterministisch waarschijnlijkheidsmodel voor de spraakherkenning. Dit model bestaat uit twee variabelen: de verborgen toestanden van de fonemen die zijn opgeslagen in het computergeheugen en het zichtbare frequentiesegment van het digitale signaal. Elk foneem heeft zijn eigen waarschijnlijkheid en het segment wordt afgestemd op het foneem volgens de waarschijnlijkheid en de overeenkomende fonemen worden vervolgens verzameld om de juiste woorden te vormen volgens de opgeslagen grammaticaregels van de taal.

Met behulp van een patroonherkenningsaanpak : In de patroonherkenningsbenadering wordt het systeem getraind met een bepaald spraakpatroon voor elke taal en wordt het onbekende spraakpatroon vergeleken met het referentiespraakpatroon door de afstand tussen de signalen te bepalen met behulp van time-warping-techniek.

Kunstmatige intelligentie gebruiken : De kunstmatige intelligentie-benadering is gebaseerd op het gebruik van basiskennisbronnen zoals de kennis van gesproken geluiden op basis van spectrale metingen, kennis van de juiste betekenisvolle en syntactische woorden.

Factoren waarvan het spraakherkenningssysteem afhankelijk is

Het spraakherkenningssysteem is afhankelijk van de volgende factoren:

  • Geïsoleerde woorden : Er moet een pauze zijn tussen de opeenvolgende woorden die worden uitgesproken, omdat doorlopende woorden elkaar kunnen overlappen, waardoor het voor het systeem moeilijk wordt om te begrijpen wanneer een woord begint of eindigt. Er moet dus een stilte zijn tussen opeenvolgende woorden.
  • Enkele luidspreker : Veel sprekers die tegelijkertijd spraakinvoer proberen te geven, kunnen overlapping van de signalen en onderbrekingen veroorzaken. De meeste gebruikte spraakherkenningssystemen zijn sprekerafhankelijke systemen.
  • Woordenschat grootte : Talen met een grote woordenschat zijn moeilijk in aanmerking te komen voor patroonvergelijking dan talen met een kleine woordenschat, omdat de kans op dubbelzinnige woorden in de laatste kleiner is.
Spraakherkenningssysteem op Windows 7

Ik zou de volgende stappen willen aanbevelen voor iedereen die Windows 7 gebruikt voor het spraakherkenningssysteem

  • Open het Configuratiescherm vanuit het startmenu of door op het pictogram te klikken.
  • Selecteer Toegankelijkheid en klik vervolgens op Spraakherkenning.
  • Klik vervolgens op microfoon instellen en selecteer desktopmicrofoon uit de beschikbare opties.
  • Volg vervolgens de spraakhandleiding en volg de gegeven instructies.
  • Train daarna uw computer voor betere opties, zodat de computer een duidelijk patroon van uw spraaksignaal opslaat. Dit doet u door te klikken op ‘train uw computer om u beter te begrijpen’ en volgt u de instructies.
  • Start nu het pictogram voor spraakherkenning en begin uw spraak op de computer te dicteren. U kunt ook uw eigen woorden aan het computerwoordenboek toevoegen.
Praktische spraakherkenningssystemen: met behulp van HM2007

Met Speech Recognition IC kan een praktisch spraakherkenningssysteem worden gebouwd HM2007 ​De HM2007 is een 48-pins IC die spraakherkenning biedt. Het werkt in twee modi: handmatige modus of CPU-modus. In beide modi wordt de IC eerst getraind om woorden te herkennen doordat de gebruiker elk woord zegt voor het corresponderende nummer dat op de toets wordt gedrukt. De IC slaat elk woordsignaal op in de geheugenlocatie die overeenkomt met het woord. De gegevensuitvoer van de IC is gekoppeld aan de microcontroller van waaruit deze op het LCD-scherm wordt weergegeven.

Praktische spraakherkenningssystemen

Normaal gesproken gebruiken we de handmatige modus voor HM2007-bediening.

  • De HM2007 bestaat uit een RDY-pin, een actieve lage pin die aangeeft dat de IC klaar is voor trainingsdoeleinden.
  • De spraakinvoer wordt gegeven via een microfoon die is aangesloten op de MICIN-pin van het IC.
  • Het IC is gekoppeld aan een toetsenbord dat wordt gebruikt om nummerinvoer te geven die overeenkomt met elk woord. De IC werkt in twee functies: Clear en Train. Wanneer de Train-toets op het toetsenbord wordt ingedrukt, begint de IC met zijn trainingsproces.
  • De gebruiker drukt op een cijfertoets voordat hij op de functietoets ‘Train’ drukt en zegt het gewenste woord tegen de microfoon.
  • Het IC stuurt een hoog signaal naar de ME-pin (Memory Enable) die is verbonden met de overeenkomstige ME-pin van SRAM. Het 8-bits gegevenssignaal dat overeenkomt met het ingedrukte nummer wordt via de externe bus in de SRAM (externe RAM) opgeslagen.
  • Nadat de spraakinvoer is gedetecteerd, is de RDY-pin logisch hoog en komt de IC in de herkenningsstatus, waar het het herkenningsproces start.
  • Het resultaat van het proces wordt weergegeven via de databus met de DEN-pin (Data Enable) hoog.
  • De 8-bits gegevens kunnen vervolgens aan de microcontroller worden doorgegeven via een seriële interfaceprocessor of eerst worden vergrendeld met behulp van vergrendeling IC 74HC573.
  • De microcontroller is gekoppeld aan een LCD en is zo geprogrammeerd dat het bijbehorende woord op het display wordt weergegeven.

De enige voorzorgsmaatregel die moet worden genomen, is om geen homoniemen te gebruiken (woorden met een vergelijkbaar geluid) en ook om te zorgen voor de opwinding in de stem.

Dus dit is allemaal hoe een basis spraakherkenningssysteem werken. Alle verdere inputs zijn welkom om te worden toegevoegd.

Afbeelding tegoed

  • Spraakherkenningssysteem door Gstatic
  • Spraakgolfvormmanipulatie door Dadisp

Componenten van spraakherkenningssysteem door An Introduction to Speech and Speaker Recognition - Richard D.Peacocke en Daryl H.Graf