Преди няколко десетилетия, ако кажем на някого, че можем да направим поръчка за продукт или услуга просто като говорим с машина, хората щяха да ни класифицират като странни. Но днес това е една такава дива мечта, която е жива и реална.
Началото и еволюцията на технологията за разпознаване на реч бяха толкова завладяващи, колкото възхода на изкуствения интелект (AI) или машинното обучение (ML). Фактът, че можем да гласуваме команди към устройства с нулеви видими интерфейси, е инженерна революция, събираща различни случаи на употреба, променящи играта.
За да поставим нещата в перспектива, край 4.2 милиарда гласови асистенти са активни днес и докладите разкриват, че до края на 2024 г. това ще се удвои до 8.4 милиарда. Освен това всеки месец се извършват над 1 милиард гласови търсения. Това променя начина, по който получаваме достъп до информация, тъй като над 50% от хората имат достъп до гласово търсене ежедневно.
Безпроблемността и удобството, предлагани от технологията, позволиха на техническите експерти да стратегизират множество приложения, включително:
- Транскрипция на бележки от срещи, правни документи, видеоклипове, подкасти и др
- Автоматизиране на обслужването на клиенти чрез IVRs – интерактивен гласов отговор
- Демократизиране на ученето на местен език в образованието
- Гласово подпомагана навигация и асистенти за изпълнение на команди в автомобила
- Гласово активирани приложения в търговията на дребно за гласова търговия и др
Тъй като тази технология придобива все по-голяма известност и зависимост, ние трябва да смекчим различните предизвикателства при разпознаването на реч както добре. От вроденото пристрастие при признаването и разбирането на различни акценти до опасенията за поверителността, няколко предизвикателства и опасения трябва да бъдат премахнати, за да се проправи пътят за безпроблемна екосистема с активиран глас.
В крайна сметка ефективността на тази технология сочи към обучението на AI и в крайна сметка предизвикателства при събирането на гласови данни. И така, нека проучим някои от най-належащите проблеми в този сектор.
[Прочетете също: Пълното ръководство за разговорен AI]
Предизвикателства пред гласовото разпознаване през 2024 г
Разнообразие от езици и акценти
На практика всяко устройство днес е гласов асистент. От смарт телевизори и лични асистенти до смартфони и дори хладилници, всяка машина има вграден микрофон и се свързва с интернет, което я прави готова за разпознаване на реч.
Въпреки че това е отличен пример за глобализация, към него трябва да се подходи и в контекста на локализацията. Красотата на езиците е, че има безброй акценти, диалекти, произношения, скорост, тон и други нюанси.
Там, където трудностите при разпознаването на реч са в разбирането на такова разнообразие в речта от глобалното население, ето защо някои устройства се борят да извлекат точната информация, която потребителите търсят, или да извлекат неуместна информация въз основа на тяхното разбиране за глас.
Високи разходи за събиране на данни
Събирането на данни от хора от реалния свят включва сериозни инвестиции. Терминът събиране на данни преди всичко е всеобхватен и често се разбира само бегло. Когато споменаваме събирането на данни и свързаните с него разходи, имаме предвид и усилия по отношение на:
- Изискванията за обем на речеви данни са динамично зависими от разходите за запис и мастериране. Освен това разходите могат да варират в зависимост от домейна на приложение, където говорните данни за здравеопазването могат да бъдат по-скъпи от гласовите данни на дребно главно поради недостига на данни.
- Разходи за транскрипция и анотация, свързани с превръщането на необработени речеви данни в обучаеми на модел данни
- Разходи за почистване на данни и контрол на качеството за премахване на шум, фонови звуци, продължително мълчание, грешки в речта и други
- Разходи, свързани с компенсациите на вносителите
- Проблеми с мащабируемостта, при които разходите се увеличават с времето и повече
Времето като разход при събиране на данни
Има два различни вида разходи – пари и стойност на парите. Докато разходите сочат парите, усилията и времето, инвестирани в събирането на гласови данни, допринасят за стойността на парите. Независимо от мащаба на проекта, събирането на гласови данни включва дълги срокове за събиране на данни.
За разлика от събирането на данни за изображения, времето, необходимо за прилагане на проверки на качеството, е повече. Освен това има няколко фактора, които влияят върху всеки добре тестван гласов файл. Това може да отнеме време за:
- Стандартизирайте файлови формати като mp3, ogg, flac и др
- Маркиране на шумни и изкривени аудио файлове
- Класифициране и отхвърляне на емоции и тонове в гласови данни и др
Предизвикателства около поверителността и чувствителността на данните
Ако се замислите, гласът на индивида е част от неговата биометрия. Подобно на начина, по който разпознаването на лицето и ретината служат като шлюзове за осигуряване на достъп до ограничена входна точка, гласът на човек също е отделна характеристика.
Когато е толкова личен, той автоматично се превежда като поверителност на индивида. И така, как установявате поверителността на данните и все пак успявате да се справите с изискванията си за обем в мащаб?
Когато става въпрос за използване на клиентски данни, това е сива зона. Потребителите не биха искали пасивно да допринасят за процесите на оптимизиране на производителността на вашия гласов модел без стимули. Дори със стимули, натрапчивите техники също могат да предизвикат обратна реакция.
Въпреки че прозрачността е ключова, тя все още не решава изискванията за обем, наложени от проектите.
[Прочетете също: Автоматично разпознаване на реч (ASR): Всичко, което един начинаещ трябва да знае]
Решение за фиксиране на пари и времеви разходи в гласови данни
Партнирайте си с доставчик на гласови данни
Аутсорсингът е най-краткият отговор на това предизвикателство. Наличието на вътрешен екип за компилиране, обработка, одит и обучение на гласови данни звучи възможно, но е абсолютно досадно. Това изисква безброй човешки часове за изпълнение, което също означава, че вашите екипи в крайна сметка ще прекарват повече време в извършване на излишни задачи, отколкото в иновации и усъвършенстване на резултатите. С етиката и отчетността също в уравнението, идеалното решение е да се обърнете към доверен доставчик на услуги за гласови данни като нас – Shaip.
Решение за коригиране на променливостта на акцента и диалекта
Безспорното решение за това е внасянето на богато разнообразие в речеви данни, използвани за обучение на гласово базирани AI модели. Колкото по-широка е гамата от етноси и диалекти, толкова повече моделът е обучен да разбира разликите в диалектите, акцентите и произношенията.
Пътят напред
Докато напредваме по-нататък по пътя към постигане на технологично задвижвани алтернативни реалности, гласовите модели и решения ще бъдат само по-неразделни. Идеалният начин е да поемете по пътя на аутсорсинга, за да осигурите качествени, етични и огромни мащаби на готови за обучение гласови данни се доставят след осигуряване на качеството и одити.
Точно в това ние от Shaip също се отличаваме. Нашата разнообразна гама от речеви данни гарантира, че изискванията на вашия проект са изпълнени безпроблемно и също така са разгърнати до съвършенство.
Призоваваме ви да се свържете с нас за вашите изисквания.