Jak rozmawiać z botem w kanale komunikacji głosowej: Integracja z technologią VoIP

Komunikacja głosowa z botem staje się coraz bardziej popularna, a technologia ta jest coraz częściej wykorzystywana w różnych dziedzinach, od obsługi klienta po inteligentne domy. Ale jak to działa? Jak rozmawiać z botem w kanale komunikacji głosowej? Przyjrzyjmy się bliżej technologiom takim jak ASR (Automatic Speech Recognition), TTS (Text-To-Speech), system Asterisk i integracji z technologią VoIP (Voice over Internet Protocol).

ASR (Automatic Speech Recognition)

ASR to technologia, która umożliwia komputerom rozpoznawanie i transkrypcję mowy ludzkiej na tekst. Jest to kluczowy element interfejsów użytkownika opartych na głosie, ponieważ umożliwia komputerom „rozumienie” poleceń głosowych użytkowników. ASR jest wykorzystywany do przekształcenia mowy użytkownika na tekst, który może być przetworzony przez komputer.

TTS (Text-To-Speech)

TTS to technologia, która przekształca tekst na mowę. Jest to niezbędne dla interfejsów użytkownika opartych na głosie, aby mogły one odpowiadać użytkownikom za pomocą mowy. Po interpretacji intencji użytkownika, system generuje odpowiedź tekstową, która jest następnie przekształcana na mowę za pomocą TTS.

System Asterisk

Asterisk to otwarte oprogramowanie do tworzenia systemów telekomunikacyjnych. Jest to bardzo elastyczne narzędzie, które może być używane do budowy różnych systemów, w tym systemów IVR (Interactive Voice Response), które są często wykorzystywane w botach głosowych. Asterisk może być skonfigurowany do pracy z technologiami ASR i TTS, umożliwiając tworzenie zaawansowanych systemów dialogowych.

Integracja z technologią VoIP

VoIP, czyli Voice over Internet Protocol, to technologia, która umożliwia przesyłanie głosu przez sieci IP. Jest to kluczowe dla botów głosowych, ponieważ umożliwia im komunikację z użytkownikami przez Internet, a nie tylko przez tradycyjne linie telefoniczne.

Asterisk jest jednym z najpopularniejszych systemów do obsługi VoIP. Może być skonfigurowany do przyjmowania połączeń VoIP i przekazywania ich do odpowiedniego bota głosowego. Może również być używany do przekazywania odpowiedzi bota z powrotem do użytkownika przez VoIP.
Przykład autorskiej integracji systemu głosowego VOIP z BOTem „Drive Druid” dla branży motoryzacyjnej prezentuję w artykule: https://pawelmatyja.com/2023/06/30/voip-moto-asystent-i-drivedruid-czyli-bot-w-sluzbie-branzy-motoryzacyjnej/

Ale jak właściwie rozmawiać z botem?

Voiceboty jak z nimi rozmawiać?

Jeśli jesteś w sytuacji, w której po drugiej stronie słuchawki połączenie odbiera bot, nie wpadaj w panikę – daj mu szansę.

Po pierwsze mów do niego płynnie, wyraźnie i powoli, ale nie zmieniaj tempa – tak jak sam chciałbyś aby mówiono do Ciebie.

Postaraj się wykazać cierpliwością, na pewno Twój wirtualny rozmówca ma jej nieskończone pokłady…

Staraj się mówić konkretnie, odpowiadać krótko i zrozumiale, wykorzystując zwroty jak najmniej skomplikowane

Nie wchodź w słowo botowi, mów kiedy słucha, słuchaj kiedy mówi ( nie jest to kwestia kultury a technologii, zwykle systemy dialogowe działają na zasadzie komunikacji asynchronicznej – jednostronnej ).

Zwróć uwagę na poziom hałasu jaki panuje w miejscu w którym rozmawiasz z botem, pamiętaj, że systemy ASR rozpoznają kiedy mówisz, a kiedy kończysz zdanie analizując próg ciszy – jeśli w pomieszczeniu, w którym rozmawiasz jest zbyt głośno, bot może wykryć hałas tła jako Twoją wymową i nie zrozumieć Twojej wypowiedzi.

Badanie pt. „Speech Rate Adjustments in Conversations With an Amazon Alexa Socialbot” autorstwa Michelle Cohn, Kai-Hui Liang, Melina Sarian, Georgia Zellou, Zhou Yu bada dostosowania tempa mowy użytkowników podczas rozmów z Amazon Alexa. Badanie to skupia się na dwóch czynnikach: sytuacyjnym (w laboratorium vs. w domu) i komunikacyjnym (błędy rozpoznawania mowy ASR).

Zgromadzono dane z interakcji użytkowników i zmierzono tempo mowy na każdym etapie rozmowy oraz w produkcjach bazowych (zebrane przed interakcją). Ogólnie stwierdzono, że użytkownicy spowalniają tempo mowy podczas rozmowy z botem, w porównaniu do ich produkcji przed interakcją, co jest zgodne z hiperartykulacją. Mówcy używają jeszcze wolniejszego tempa mowy w ustawieniu w laboratorium (w porównaniu do domu).

Badacze zauważyli również dowody na dostosowanie na poziomie tury: użytkownik podąża za kierunkiem zmian tempa Alexy w bezpośrednio poprzedzającej turze. Nie zauważono jednak różnic w hiperartykulacji ani dostosowaniu w odpowiedzi na błędy ASR, ani na podstawie ocen interakcji użytkowników. Badanie do pobrania tutaj:

Podsumowanie

Komunikacja głosowa z botem jest fascynującym obszarem, który ma ogromny potencjał. Dzięki technologii VUI, użytkownicy mogą komunikować się z komputerami w sposób naturalny i intuicyjny. Technologie takie jak ASR, TTS, Asterisk i VoIP są kluczowe dla rozwoju tej dziedziny. W miarę jak technologia ta będzie się rozwijać, możemy oczekiwać, że stanie się ona coraz bardziej powszechna w naszym codziennym życiu.

Shopping Cart