Казус: Разговорен AI

Над 3 8 часа събрани, сегментирани и транскрибирани данни за изграждане на ASR на XNUMX индийски езика

Колекция от изказвания
Правителството има за цел да даде възможност на своите граждани с лесен достъп до интернет и цифрови услуги на собствения им роден език чрез проекта Bhashini.

BHASHINI, индийската платформа за езиков превод, управлявана от AI, е жизненоважна част от инициативата Digital India.

Проектирана да предоставя инструменти за изкуствен интелект (AI) и обработка на естествен език (NLP) на ММСП, стартиращи фирми и независими иноватори, платформата Bhashini служи като публичен ресурс. Неговата цел е да насърчи цифровото включване, като даде възможност на индийските граждани да взаимодействат с цифровите инициативи на страната на родния си език.

Освен това има за цел значително да разшири достъпността на интернет съдържание на индийски езици. Това е специално насочено към области от обществен интерес като управление и политика, наука и технологии и т.н. Следователно, това ще стимулира гражданите да използват интернет на собствения си език, насърчавайки тяхното активно участие.

Използвайте НЛП, за да активирате разнообразна екосистема от сътрудници, партньорски организации и граждани с цел преодоляване на езиковите бариери, като по този начин гарантирате цифрово включване и овластяване

Реален свят Решение

Отприщване на силата на локализацията с данни

Индия се нуждаеше от платформа, която да се концентрира върху създаването на многоезични набори от данни и базирани на изкуствен интелект езикови технологични решения, за да предоставя цифрови услуги на индийски езици. За да стартира тази инициатива, Индийският технологичен институт, Мадрас (IIT Madras) си партнира с Shaip за събиране, сегментиране и транскрибиране на набори от данни на индийски език за изграждане на многоезични говорни модели.

Предизвикателства

За да помогне на клиента с тяхната пътна карта за говорни технологии за индийски езици, екипът трябваше да придобие, сегментира и транскрибира големи обеми данни за обучение, за да изгради AI модел. Критичните изисквания на клиента бяха:

Събиране на данни

  • Придобийте 3000 часа данни за обучение на 8 индийски езика с 4 диалекта на език.
  • За всеки език доставчикът ще събира Extempore Speech и
    Разговорна реч от възрастови групи от 18-60 години
  • Осигурете разнообразна комбинация от говорители по възраст, пол, образование и диалекти
  • Осигурете разнообразна комбинация от среди за запис според спецификациите.
  • Всеки аудиозапис трябва да бъде поне 16kHz, но за предпочитане 44kHz

Сегментиране на данни

  • Създайте речеви сегменти от 15 секунди и маркирайте аудиото до милисекунди за всеки даден високоговорител, тип звук (говор, бърборене, музика, шум), завои, изказвания и фрази в разговор
  • Създайте всеки сегмент за неговия целеви звуков сигнал с 200-400 милисекунди подложка в началото и в края.
  • За всички сегменти трябва да бъдат попълнени следните обекти, т.е. начален час, краен час, идентификатор на сегмент, ниво на силата на звука, тип звук, код на езика, идентификатор на високоговорителя и т.н.

Транскрипция на данни

  • Следвайте подробните указания за транскрипция относно знаци и специални символи, правопис и граматика, главни букви, съкращения, съкращения, отделни изговорени букви, цифри, препинателни знаци, акроними, неплавно, реч, неразбираема реч, нецелеви езици, нереч и др.

Проверка на качеството и обратна връзка

  • Всички записи ще бъдат подложени на оценка на качеството и валидиране, само валидирана реч ще бъде изнесена

Решение

С нашето дълбоко разбиране на разговорния AI, ние помогнахме на клиента да събере, сегментира и транскрибира данните с екип от експертни колекционери, лингвисти и анотатори, за да изгради голям корпус от набор от аудио данни на 8 индийски езика

Обхватът на работа за Shaip включваше, но не се ограничаваше до придобиване на големи обеми данни за аудио обучение, сегментиране на аудиозаписите на множество, транскрибиране на данните и доставяне на съответните JSON файлове, съдържащи метаданните [SpeakerID, възраст, пол, език, диалект,
Майчин език, квалификация, професия, домейн, файлов формат, честота, канал, тип аудио, брой високоговорители, брой чужди езици, използвана настройка, теснолентово или широколентово аудио и др.]. 

Shaip събра 3000 часа аудио данни в мащаб, като същевременно поддържа желаните нива на качество, необходими за обучение на речевата технология за сложни проекти. От всеки от участниците беше взет формуляр за изрично съгласие.

1. Събиране на данни