Събиране на данни за реч

7 доказани метода за персонализиране на събирането на говорни данни

Пазарът на гласово разпознаване в света се очаква да нарасне до $ 84.97 милиарди от 2032 от 10.7 милиарда долара през 2023 г. при CAGR от 23.7%.

Персонализирането на събирането на речеви данни е от решаващо значение за успеха на вашите проекти за изкуствен интелект и машинно обучение (ML). Независимо дали изграждате разговорни AI агенти, модели за разпознаване на реч или други базирани на глас приложения, качеството и разнообразието на вашите речеви данни могат да подобрят или нарушат производителността на вашия модел.

В това изчерпателно ръководство ще разгледаме 7 доказани метода, за да ви помогнем да персонализирате и оптимизирате процеса на събиране на речеви данни. От определяне на правилните езикови и демографски изисквания до интегриране на усъвършенствани техники за увеличаване на данни, тези стратегии ще гарантират, че събирате висококачествени речеви данни, от които вашите AI/ML модели се нуждаят, за да процъфтяват.

Нека да разгледаме всички ефективни начини или точки, които трябва да имате предвид, преди да персонализирате събиране на речеви данни проект.

Точки, които трябва да имате предвид, докато персонализирате събирането на речеви данни

  • Езици и демография
  • Размер на колекцията
  • Структура на скрипта
  • Аудио изисквания и формати
  • Изисквания за доставка и обработка
  • Възползвайте се от усъвършенствани техники за увеличаване на данните
  • Други важни точки за отбелязване

Езици и демография

Проектът трябва първо да определи целевите езици и целевата демографска група.

  • Езици и диалект

    Започнете, като имате предвид изискването на проекта – езиците, за които наборът от речеви данни се събира и персонализира. Освен това разберете специфичните изисквания за умения. Например, трябва ли участникът да е роден или не-майчин?

    Например – Говорещи английски език като роден

    Бягането по петите на езика е диалект. За да сте сигурни, че наборът от данни не страда от пристрастия, препоръчително е умишлено да въведете диалекти, за да се съобразите с разнообразието на участниците.

    Например – Говорящи с австралийски английски акцент

  • Държави

    Преди персонализиране е важно да знаете дали има специфично изискване участниците да идват от определени държави. И дали участниците в момента трябва да живеят в конкретна държава.

    Например – Пенджаби се говори по различен начин в Индия и Пакистан.

  • Демографията

    Освен език и география, персонализирането може да се извърши и въз основа на демографски данни. Може да се направи и целево разпределение на участниците въз основа на тяхната възраст, пол, образователен ценз и др.

    Например – Възрастни срещу деца или Образовани срещу необразовани

Размер на колекцията

Вашият набор от данни ще повлияе на ефективността на вашия проект за данни. Обаче размерът на събираните данни, от който се нуждаете, също ще определи необходимите участници.

  • Общият брой респонденти

    Определете общия брой участници, които ще са необходими за проекта. В случай, че проектът изисква език събиране на аудио данни, трябва да анализирате общия брой участници, необходими за целевия език.

    Например – 50% американски английски и 50% австралийски английски говорители

  • Общият брой изказвания

    За да изградите колекция от речеви данни, определете общия брой изказвания или повторения на участник или общия брой необходими повторения.

    Например – 50 участници с 25 изказвания на участник = 1250 повторения

Структура на скрипта

Скриптът също може да бъде персонализиран, за да отговаря на нуждите на проекта, така че е препоръчително да потърсите помощта на реч терапевти за проектиране на потока от текст. Ако ML моделът трябва да бъде обучен върху добре структурирани данни, той трябва да вземе под внимание скрипта и работния процес.

  • Скрипт срещу несценарий

    Можете да избирате между използване на текст със сценарий или естествен или неписан текст, който да бъде прочетен от участниците.

    В реч по сценарий, участниците четат това, което се показва на екрана. Този метод се използва най-вече за запис на команди или инструкции.

    Например – „Изключете музиката“, „Натиснете 1 за запис.“

    В речта без сценарий на участниците се дават сценарии и се изисква да формулират изреченията си и да говорят възможно най-естествено.

    Например – „Можете ли да ми кажете къде е следващата бензиностанция?“

  • Колекция от изказвания / Думи за събуждане

    В случай, че се използва скриптиран текст, трябва да решите броя на скриптовете, които ще бъдат използвани, и дали всеки участник ще чете уникален скрипт или група от скриптове. Освен това определете дали скриптът съдържа колекция от думи и команди за събуждане.

    Например -

    Команда 1:

    „Алекса, каква е рецептата за шоколадов кекс?“

    „Ok Google, каква е рецептата за шоколадов кекс?“

    „Сири, каква е рецептата за шоколадов кекс?“

    Команда 2:

    „Алекса, кога е полетът за Ню Йорк?“

    „Google, кога е полетът за Ню Йорк?“

    „Сири, кога е полетът за Ню Йорк?“

Аудио изисквания и формати

Аудио изисквания Качеството на звука играе решаваща роля при разпознаването на реч събиране на данни процес. Разсейващият фонов шум може да повлияе отрицателно на качеството на събраните гласови бележки. Това също може да намали ефективността на алгоритъма за гласово разпознаване.

  • Audio Quality

    Качеството на записите и наличието на фонов шум могат да повлияят на резултата от проекта. Но някои колекции от говорни данни приемат наличието на шум. Въпреки това е препоръчително да имате по-добро разбиране на изискванията по отношение на битрейт, съотношение сигнал/шум, амплитуда и др.

  • формат

    Файловият формат, точки от данни, структурата на съдържанието, компресията и изискванията за последваща обработка също определят качеството на записите на реч.

    Причината за важността на файловите формати е, че моделът трябва да идентифицира изходния файл и да бъде обучен да разпознава това конкретно качество на звука.

  • Определете персонализирано аудио изискване

    Персонализираните аудио изисквания трябва да бъдат споменати преди началото на процеса на събиране. Клиентите могат да избират персонализирани аудио файлове, където конкретни файлове са събрани заедно.

Изисквания за доставка и обработка

След като данните за речта бъдат събрани, клиентите могат да изберат да бъдат доставени според техните изисквания.

  • Изискване за транскрипция и анотация

    Някои клиенти изискват транскрипция на данни и етикетиране, преди да ги доставят. Освен това те може също да изискват специфични форми на етикетиране и сегментиране.

    Понякога е по-добре да се търси логопеди и експерти, които да помогнат при транскрибиране на реч на различни езици, за да се запази автентичността на целевия език.

  • Конвенции за именуване на файлове

    - формуляри за събиране на данни трябва да посочи всяка конвенция за именуване на файлове, която да се следва. Ако конвенцията за именуване е сложна или извън стандартния обхват на процеса, това може да привлече допълнителни разходи за разработка.

  • Указания за доставка

    Указанията за сигурност и доставка трябва да се следват, както е посочено в изискванията на проекта. Освен това трябва да се уточни дали данните трябва да се доставят на малки етапи или като пълен пакет наведнъж. Клиентите също предпочитат навреме мониторинг на напредъка актуализации, така че да могат да следят състоянието на проекта.

Възползвайте се от усъвършенствани техники за увеличаване на данните

  • Увеличаването на речеви данни може значително да разшири разнообразието и устойчивостта на вашия набор от данни.
  • Изследвайте техники като изместване на височината на звука, времево разтягане, инжектиране на шум и гласово преобразуване, за да генерирате синтетично нови, висококачествени речеви семпли.
  • Интегрирайте тези методи за увеличаване на данни в работния процес за събиране на речеви данни, за да създадете по-изчерпателен и представителен набор от данни

Други важни точки за отбелязване

Персонализациите ще повлияят как,

  • Използвани методи за събиране на данни
  • Набирането на участници
  • Срокът за доставка
  • Ориентировъчна цена на проекта

Казус от практиката: Събиране на многоезични речеви данни

Shaip наскоро си партнира с водеща компания за разговорен AI, за да събере висококачествени речеви данни на 12 езика за тяхната платформа за виртуален асистент. Използвайки нашия опит в езиковото разнообразие и най-добрите практики за събиране на данни, ние успешно предоставихме изчерпателен набор от данни, който значително подобри точността на разпознаване на речта на клиента и потребителското изживяване на множество пазари.

Бъдещето на събирането на речеви данни

Тъй като технологиите AI и ML продължават да напредват, търсенето на висококачествени речеви данни ще продължи да расте. Нововъзникващите тенденции, като многоезичното и многоакцентно разпознаване на реч, ще изискват още по-разнообразни и представителни набори от данни. Освен това използването на синтетични данни и усъвършенствани техники за увеличаване на данните ще играе все по-важна роля в разширяването на размера и разнообразието от набори от речеви данни.

Ние в Shaip се ангажираме да останем в челните редици на тези тенденции и да предоставяме на нашите клиенти най-висококачествени услуги за събиране на речеви данни, за да задвижим техните AI/ML иновации.

Заключение

Като следвате тези 7 доказани метода, можете да проектирате и изпълните проект за събиране на речеви данни, който настройва вашите AI/ML приложения за успех. Не забравяйте, че качеството и разнообразието на вашите речеви данни са от първостепенно значение, така че не забравяйте да инвестирате времето и ресурсите, необходими за създаване на набор от данни, който наистина отговаря на изискванията на вашия проект.

Ако се нуждаете от допълнителна помощ при персонализирането и оптимизирането на вашето събиране на речеви данни, експертите от Shaip са тук, за да помогнат. Свържете се с нас за да научите как нашите услуги за данни от край до край могат да повишат възможностите ви за AI/ML.

[Прочетете също: Данни за обучение по разпознаване на реч – типове, събиране на данни и приложения]

Социален дял