Ако използвате Siri, Alexa, Cortana, Amazon Echo или други като част от ежедневието си, ще приемете това Гласово разпознаване се превърна в повсеместна част от живота ни. Тези задвижвани от изкуствен интелект гласовите асистенти преобразуват устните заявки на потребителите в текст, интерпретират и разбират какво казва потребителят, за да излязат с подходящ отговор.
Има нужда от качествено събиране на данни за разработване на надеждни модели за разпознаване на реч. Но, развивайки се софтуер за разпознаване на говор не е проста задача – точно защото транскрибирането на човешка реч в цялата й сложност, като ритъм, акцент, височина и яснота, е трудно. И когато добавите емоции към този сложен микс, това се превръща в предизвикателство.
Какво е разпознаване на реч?
Разпознаването на реч е способността на софтуера да разпознава и обработва човешка реч в текст. Докато разликата между разпознаването на глас и разпознаването на реч може да изглежда субективна за мнозина, има някои фундаментални разлики между двете.
Въпреки че разпознаването на реч и глас са част от технологията на гласовия асистент, те изпълняват две различни функции. Разпознаването на реч прави автоматични транскрипции на човешка реч и команди в текст, докато разпознаването на глас се занимава само с разпознаването на гласа на говорещия.
Видове разпознаване на реч
Преди да скочим в видове разпознаване на реч, нека да разгледаме накратко данните за разпознаване на реч.
Данните за разпознаване на реч са колекция от аудиозаписи на човешка реч и транскрипция на текст, които помагат за обучение на системи за машинно обучение за разпознаване на глас.
Аудиозаписите и транскрипциите се въвеждат в системата ML, за да може алгоритъмът да бъде обучен да разпознава нюансите на речта и да разбира нейния смисъл.
Въпреки че има много места, където можете да получите безплатни предварително опаковани набори от данни, най-добре е да вземете персонализирани набори от данни за вашите проекти. Можете да изберете размера на колекцията, изискванията за аудио и високоговорители и език, като имате персонализиран набор от данни.
Спектър на речеви данни
Данни за речта спектърът идентифицира качеството и височината на речта, вариращи от естествени до неестествени.
Скриптирани данни за разпознаване на реч
Както подсказва името, скриптовата реч е контролирана форма на данни. Говорителите записват конкретни фрази от подготвен текст. Те обикновено се използват за доставяне на команди, подчертавайки как дума или фраза се казва, а не това, което се казва.
Скриптираното разпознаване на реч може да се използва при разработването на гласов асистент, който трябва да улавя команди, издадени с помощта на различни акценти на високоговорителите.
Базирано на сценарии разпознаване на реч
В реч, базирана на сценарий, ораторът е помолен да си представи конкретен сценарий и да издаде a гласово командване въз основа на сценария. По този начин резултатът е колекция от гласови команди, които не са скриптирани, а контролирани.
Речевите данни, базирани на сценарии, се изискват от разработчиците, които искат да разработят устройство, което разбира ежедневната реч с различните й нюанси. Например, попитайте за упътване до най-близкия Pizza Hut, като използвате различни въпроси.
Естествено разпознаване на реч
Точно в края на речевия спектър е речта, която е спонтанна, естествена и неконтролирана по никакъв начин. Говорителят говори свободно, използвайки естествения си разговорен тон, език, височина и тенор.
Ако искате да обучите ML-базирано приложение за разпознаване на реч с много говорители, тогава ненаписано или разговорна реч наборът от данни е полезен.
Компоненти за събиране на данни за речеви проекти
Поредица от стъпки, включени в събирането на речеви данни, гарантират, че събраните данни са с качество и помагат при обучението на висококачествени модели, базирани на AI.
Разберете необходимите потребителски отговори
Започнете, като разберете необходимите потребителски отговори за модела. За да разработите модел за разпознаване на реч, трябва да съберете данни, които точно представят съдържанието, от което се нуждаете. Събирайте данни от взаимодействия в реалния свят, за да разберете взаимодействията и отговорите на потребителите. Ако изграждате базиран на изкуствен интелект асистент за чат, погледнете журналите за чат, записите на разговори, отговорите на диалоговия прозорец за чат, за да създадете набор от данни.
Проучете внимателно специфичния за домейна език
За набор от данни за разпознаване на реч ви е необходимо както общо, така и специфично за домейн съдържание. След като сте събрали общи данни за речта, трябва да пресеете данните и да отделите общите от специфичните.
Например, клиентите могат да се обадят, за да поискат час за проверка за глаукома в очен център. Искането за среща е силно общ термин, но глаукомата е специфична за дадена област.
Освен това, когато обучавате ML модел за разпознаване на реч, уверете се, че го обучавате да идентифицира фрази вместо индивидуално разпознати думи.
Запис на човешка реч
След събиране на данни от предишните две стъпки, следващата стъпка ще включва хората да запишат събраните изявления.
Важно е да поддържате идеална дължина на сценария. Искането на хората да четат повече от 15 минути текст може да бъде контрапродуктивно. Поддържайте интервал от минимум 2-3 секунди между всяко записано изявление.
Позволете на записа да бъде динамичен
Създайте хранилище за реч от различни хора, говорни акценти, стилове, записани при различни обстоятелства, устройства и среди. Ако по-голямата част от бъдещите потребители ще използват стационарната линия, вашата база данни за събиране на реч трябва да има значително представяне, което отговаря на това изискване.
Предизвикване на променливост в записа на речта
След като целевата среда е настроена, помолете вашите субекти за събиране на данни да прочетат подготвения скрипт в подобна среда. Помолете субектите да не се тревожат за грешките и да запазят предаването възможно най-естествено. Идеята е голяма група хора да записват сценария в една и съща среда.
Транскрибирайте речите
След като сте записали сценария, използвайки множество теми (с грешки), трябва да продължите с транскрипцията. Запазете грешките непокътнати, тъй като това ще ви помогне да постигнете динамика и разнообразие в събраните данни.
Вместо хората да транскрибират целия текст дума по дума, можете да включите машина за преобразуване на говор в текст, за да извършите транскрипцията. Въпреки това, ние също така ви предлагаме да използвате човешки преписвачи, за да коригирате грешките.
Разработете набор от тестове
Разработването на набор от тестове е от решаващо значение, тъй като той е фаворит на езиков модел.
Направете двойка от речта и съответния текст и ги направете на сегменти.
След като съберете събраните елементи, извлечете проба от 20%, която формира тестовия набор. Това не е наборът за обучение, но тези извлечени данни ще ви уведомят дали обученият модел транскрибира аудио, на което не е бил обучен.
Изградете модел и мярка за езиково обучение
Сега изградете езиковия модел за разпознаване на реч, като използвате специфичните за домейна изрази и допълнителни варианти, ако е необходимо. След като сте обучили модела, трябва да започнете да го измервате.
Вземете тренировъчния модел (с 80% избрани аудио сегменти) и го тествайте спрямо тестовия набор (извлечен 20% набор от данни), за да проверите за прогнози и надеждност. Проверете за грешки, модели и се фокусирайте върху факторите на околната среда, които могат да бъдат коригирани.
[Прочетете също: Подобрете AI моделите с нашите качествени набори от аудио данни на индийски език.]
Възможни случаи на употреба или приложения
Гласово приложение, интелигентни уреди, говор към текст, поддръжка на клиенти, диктовка на съдържание, приложение за сигурност, автономни превозни средства, водене на бележки за здравеопазване.
Разпознаването на реч отваря свят от възможности и приемането на гласови приложения от потребителите се е увеличило през годините.
Някои от често срещаните приложения на технология за разпознаване на реч включват:
Приложение за гласово търсене
Според Google, около 20% от търсенията, извършени в приложението Google, са гласови. Осем милиарда души се очаква да използват гласови асистенти до 2023 г., рязко увеличение от прогнозираните 6.4 милиарда през 2022 г.
Възприемането на гласово търсене се е увеличило значително през годините и се предвижда тази тенденция да продължи. Потребителите разчитат на гласово търсене, за да търсят заявки, да купуват продукти, да локализират фирми, да намират местни фирми и др.
Домашни устройства/Умни уреди
Технологията за гласово разпознаване се използва за предоставяне на гласови команди на домашни смарт устройства като телевизори, светлини и други уреди. 66% от потребителите в Обединеното кралство, САЩ и Германия заявиха, че са използвали гласови асистенти, когато използват смарт устройства и високоговорители.
Реч в текст
Приложенията за преобразуване на реч в текст се използват за подпомагане на безплатното изчисление при въвеждане на имейли, документи, отчети и други. Реч в текст елиминира времето за писане на документи, писане на книги и имейли, субтитриране на видеоклипове и превод на текст.
за поддръжка на клиенти
Приложенията за разпознаване на реч се използват предимно при обслужване и поддръжка на клиенти. Системата за разпознаване на реч помага при предоставянето на решения за обслужване на клиенти 24/7 на достъпна цена с ограничен брой представители.
Съдържателна диктовка
Друго е диктовката на съдържанието случай на използване на разпознаване на реч който помага на студенти и преподаватели да напишат обширно съдържание за част от времето. Това е доста полезно за ученици в неравностойно положение поради слепота или проблеми със зрението.
Приложение за сигурност
Гласовото разпознаване се използва широко за целите на сигурността и удостоверяването чрез идентифициране на уникални гласови характеристики. Вместо лицето да се идентифицира чрез открадната или злоупотребена лична информация, гласовата биометрия повишава сигурността.
Освен това гласовото разпознаване за целите на сигурността подобри нивата на удовлетвореност на клиентите, тъй като премахва удължения процес на влизане и дублирането на идентификационни данни.
Гласови команди за превозни средства
Превозните средства, предимно автомобили, вече имат обща функция за гласово разпознаване, за да подобрят безопасността при шофиране. Той помага на шофьорите да се съсредоточат върху шофирането, като приема прости гласови команди като избиране на радиостанции, извършване на повиквания или намаляване на звука.
Водене на бележки за здравеопазване
Софтуерът за медицински транскрипции, създаден с помощта на алгоритми за разпознаване на реч, лесно улавя гласовите бележки, команди, диагнози и симптоми на лекарите. Воденето на медицински бележки повишава качеството и спешността в здравната индустрия.
Имате ли предвид проект за разпознаване на реч, който може да преобрази бизнеса ви? Всичко, от което може да се нуждаете, е персонализиран набор от данни за разпознаване на реч.
Софтуерът за разпознаване на реч, базиран на AI, трябва да бъде обучен на надеждни масиви от данни за алгоритми за машинно обучение, за да интегрира синтаксис, граматика, структура на изреченията, емоции и нюанси на човешката реч. Най-важното е, че софтуерът трябва непрекъснато да се учи и да реагира – нараствайки с всяко взаимодействие.
В Shaip предоставяме изцяло персонализирани набори от данни за разпознаване на реч за различни проекти за машинно обучение. С Shaip имате достъп до най-високо качество на персонализирани данни за обучение които могат да се използват за изграждане и пускане на пазара на надеждна система за разпознаване на реч. Свържете се с нашите експерти за цялостно разбиране на нашите предложения.
[Прочетете също: Пълното ръководство за разговорен AI]