Cortana przegrała walkę z Alexą i Asystentem Google, ale wciąż może być ważnym elementem ekosystemu od Microsoft. Gigant z Redmond nie rezygnuje z rozwoju swojego wirtualnego pomocnika i na konferencjach Build przedstawia nowy pomysł na rozwiązanie z komendami głosowymi. Demonstracja ma pokazać drzemiący w Cortanie potencjał i jego możliwe, przyszłe funkcje. To jeszcze tylko wizja, ale developerzy mają ochotę zacząć wdrażać nowinki. Pytanie, kiedy?

Cortana 2019

Cortana z Azure Speech Service

Nowa Cortana ma być inteligentniejsza, bardziej pomocna i rozmowna. Sumując, Microsoft pokazuje przepis na bardziej konkurencyjnego asystenta, na którego czekali fani i użytkownicy tej marki. Nowe funkcje przedstawiono na krótkim zwiastunie. Lekko podrasowanym w niektórych momentach, ale na ten moment chodziło o pokazanie przyszłych ulepszeń. To video koncepcyjne, ale z realnymi do wzdrożenia elementami. Widać na nim konwersację na linii osoba-asystent głosowy.

Generalnie developerzy uzyskają referencyjne modele pod budowę smart głośników, ale i przekształcania dowolnego telefonu lub laptopa/tabletu w jednostkę nasłuchującą komendy. Demo ukazało współpracę urządzeń końcowych oraz rozwiązań chmurowych, ulepszających możliwości asystenta. Przykładem jest m.in. jednoczesne rozpoznawanie kilku poleceń na raz.  Ważną częścią nowej Cortany ma być transkrypcja konwersacji w czasie rzeczywistym, czyli zapis głosu na tekst. System Conversation Transcription ma używać Azure Speech Service i potrafić wykrywać głosy różnych osób w tym samym czasie i z różnych odległości. Trochę straszno!

Nasłuch na spotkaniach

Część opcji będzie wspomagana kamerkami, czyli analizami video. Cortana ma potrafić obserować mowę osób w kadrze, by lepiej rozpoznawać komendy. Taki możliwości ma mięć widoczny na zdjęciu czarny stożek, prezentowany już jakiś czas temu. AI ma przez taką stację (głośnik?) słuchać i widzieć użytkowników. Na samej górze jest obiektyw z rybim okiem. To całkowicie nowa generacja sprzętu, która może nawet lekko odstraszać. Projekt jest kierowany do biur, a tam ma pomóc w rozpoznawaniu będących w pokoju uczestników, zapisywać ich rozmowy przez detekcję głosów, a przez Cortanę od razu zapisywać kolejne spotkania w kalendarzu. Asystentka w formie wirtualnej sekretarki.

Cortana 2019

Na razie nowinki mają pojawić się w modelach developerskich, gdzie dostępny będzie 360-stopniowy nasłuch i podgląd video. Jest już nawet SDK współpracujące z zewnętrznymi smart kamerkami, czy Azure Kinect. Microsoft przekonuje jednak, że jeśli będze trzeba to zostaną wykorzystane też zwykłe urządzenia, tworząc wirtualny mikrofon z obecnych w pomieszczeniu gadżetów. Utworzą jakość jaką otrzymalibyśmy ze specjalnych mikrofonów typu „far field” znanych ze smart głośników. Ma to na przykład poprawić Tłumacza Microsoftu i lepszą transkrypcję głosu na tekst.

Cortana dla smart home

Sporo zaprezentowanych możliwości jest dostępna przez Cortanę już teraz, ale przyszła asystentka ma znacznie usprawnić ich jakość oraz poziom reakcji. Co ciekawe, pomocnik nowej generacji ma wykrywać nawet przerwy w mowie, a także charakterystyczne przerywniki fonetyczne. Struktura zdania ma być analizowana i brana pod uwagę. Doda to naturalności i realizmu, do czego dążą chyba wszystkie firmy tworzące asystentów AI. Korzyści uzyska tu także dział inteligentnych domów, gdzie zapytania będą lepiej rozumiane.

Microsoft przekonuje, że ten sam zestaw, o którym pisałem wyżej, ma dać efekty nie tylko w biurach, ale i zwykłych mieszkaniach. O ile mikrofonom w smart głośnikach łatwiej zezwolić na nasłuch w domu, to już kamerka z AI wydaje się troszkę za wścibska. Oczywiście mamy już w domach monitoring pilnujący mienia, ale mało który dysponuje takim potencjałem jak stożek z Cortaną. Załóżmy jednak, że mamy pewność co do bezpieczeńtwa i prywatności. Co takiego nowa Cortana z adekwantnym hardwarem może więcej zaoferować? Azure Speech Service ma wykrywać polecenia, nawet gdy mówi na raz kilku domowników. Dzisiaj potrzeba ciszy, by komendy były rozpoznane prawidłowo. Często zdarza mi się, że swoje trzy grosze wtrąca np. głos z telewizora (akurat nie mam ustawienia wyłącznie dla mojego głosu).

 Microsoft Semantic Machines ma z kolei poprawić IQ Cortany. Ma być bardziej kontekstowa, lepiej porozumiewając się z użytkownikiem. Wciąż wszyscy wielczy gracze, czyli Siri, Alexa i Asystent Google próbują to dopracowywać. Cortana też chce pokazać swoje możliwości w tym zakresie. Microsoft określa swoje rozwiazania jako możliwości współpracownika. Powiedziano też, że Cortana ma być uzupełnieniem dla Alexy, nie bezpośrednim rywalem. Cortana z Alexą już zresztą współpracują. Dzisiaj nawet pisałem o nowej aktualizacji Alexy dla Windows 10 z opcją wybudzania nasłuchu komend tylko głosem. Możliwe, że o ile Alexa i asystent od Google lepiej sprawdzą się w domu, to już Cortana uzupełni je w pracy. W ten sposób znajdze się pole do współpracy. Zobaczymy jak to się rozwinie. Na razie udziały w rynku należą do konkrentów, a nie Microsoftu.

źródło: Microsoft