Проект Ваани

Изграждане на приобщаващ AI за Индия: Ролята на Shaip в проекта Vaani

В страна с толкова културно разнообразие и езиково богатство като Индия, изграждането на приобщаващ AI започва със събиране на представителни, висококачествени масиви от данни. Това е визията зад Проект Ваани—мащабна инициатива с отворен код, ръководена от АРТПАРК, IISc Бенгалуру, и Google, с цел да даде гласност на всеки индийски език и диалект.

Амбициозната цел? Да събира 150,000 XNUMX+ часа реч намлява 15,000 XNUMX+ часа транскрипции от 1 милиона души през 773 области на Индия.

Като един от ключовите доставчици за тази национална мисия, Сайп изигра централна роля в курирането на спонтанни речеви данни, транскрипция и събиране на метаданни – полагайки основата за справедливи гласови технологии, които наистина представят истинската Индия.

Визията зад проекта Vaani

Проектът Vaani е предназначен да преодолее празнината в включването на AI чрез създаване на най-големият мултимодален, многоезичен набор от данни с отворен код в Индия. Тези данни са основополагащи за разработването на точно разпознаване на реч, превод и генериращи AI системи на местните индийски езици – много от които са недостатъчно представени в глобалните технологични екосистеми.

Дългосрочната визия е да захранваме въздействащи приложения в:

Ролята на Shaip в Project Vaani

На Shaip е поверено събирането на 8,000 часа спонтанна реч намлява 800 часа ръчно проверени транскрипции. Нашата отговорност обхващаше включването на високоговорители, аудио заснемане, маркиране на метаданни, координиране на транскрипцията и контрол на качеството.

8,000 часа на спонтанни аудио данни

800 часа на висококачествени ръчни транскрипции

Записи от 400+ носители на езика на област, представляващи различни възрастови групи, полове и диалекти

80 области, покрит

Подсказване, базирано на изображения естествена, контекстуална реч

Ето какво направи нашия подход уникален:

Разнообразие на ниво област

Разнообразие на ниво област

Набавихме записи от 80 области, разпространени в щати като Бихар, Утар Прадеш, Карнатака, Западен Бенгал и Махаращра. Всеки район предостави 100 часа аудио данни, осигурявайки регионален баланс. Ангажирахме носители на езика, като гарантирахме представяне на регионални акценти и диалекти, често пренебрегвани в основните набори от данни за AI.

Езиково и демографско представяне

Езиково и демографско представяне

Набавихме записи от 80 области, разпространени в щати като Бихар, Утар Прадеш, Карнатака, Западен Бенгал и Махаращра. Всеки район предостави 100 часа аудио данни, осигурявайки регионален баланс. Ангажирахме носители на езика, като гарантирахме представяне на регионални акценти и диалекти, често пренебрегвани в основните набори от данни за AI.

Реч, подсказана от изображения

За да стимулират спонтанния и естествен речник, на участниците бяха показани 45–90 изображения на сесия и помолени да ги опишат. Участниците бяха подканени да използват различни изображения - вариращи от културни символи до ежедневни предмети - за да предизвикат естествени, спонтанни отговори на родния си език. Това гарантира, че записите отразяват контекстуална реч от реалния свят - от съществено значение за обучението на напреднали системи за НЛП.

Висококачествени стандарти за транскрипция

Висококачествени стандарти за транскрипция

Само 10% от говорните данни бяха транскрибирани - което възлиза на 800 часа. Транскрипциите са извършени от местни лингвисти в радиус от 20–50 km от говорещия, като се гарантира познаване на диалектите и нюансите. Проверката на втория слой гарантира <5% процент на грешка в думата (WER).

Строго осигуряване на качеството

Аудио данните трябваше да отговарят на висока летва: без фонов шум, ехо, вибрации на телефона или изкривявания. Аудиото е записано в тиха среда без ехо. Файловете бяха подложени на строг преглед, за да отговарят на указанията за яснота на речта, нива на шум, точност на метаданните и проверка на високоговорителя. Маркирането на метаданни трябваше да бъде точно във всички файлове и всички записи бяха проверени за подравняване на високоговорители и местоположение.

Предизвикателства, които решихме

Успехът ни се свеждаше до прецизно планиране, валидиране, управлявано от технологии, и партньорства с местни екипи, които разбираха културните нюанси на всеки регион.

Въздействие и приложения

Приносът на Shaip не само ускори напредъка на проекта Vaani, но и постави основата за приобщаващ AI в Индия. Подбраният набор от речеви данни вече се използва за изграждане и фина настройка на AI модели за:

  • Народни гласови асистенти
  • Регионални машини за превод
  • Достъпни средства за комуникация за хора с увредено зрение
  • Управлявани AI edtech платформи за селски студенти
  • Селска телемедицина
  • Гласови услуги за граждани
  • Превод и транскрипция в реално време

Заключение

Проектът Vaani е смела стъпка към приобщаващ, достъпен AI - и Shaip има честта да играе основополагаща роля. Работата на Shaip по Project Vaani потвърждава нашия ангажимент за изграждане на етични, приобщаващи AI системи, вкоренени в разнообразието и представянето. С над 8,000 часа събрана реч и 800 часа транскрибирани, ние сме горди, че участвахме в един от най-визионерските проекти за цифрово включване в Индия.

Тъй като Project Vaani продължава към своята по-голяма цел от 150,000 XNUMX+ часа данни, ние сме готови да подкрепим следващата граница на иновациите на AI, която говори на – и за – всеки индиец.

Искате ли да си партнирате с нас, за да създадете AI, който разбира реалния свят? www.shaip.com

Социален дял