В страна с толкова културно разнообразие и езиково богатство като Индия, изграждането на приобщаващ AI започва със събиране на представителни, висококачествени масиви от данни. Това е визията зад Проект Ваани—мащабна инициатива с отворен код, ръководена от АРТПАРК, IISc Бенгалуру, и Google, с цел да даде гласност на всеки индийски език и диалект.
Амбициозната цел? Да събира 150,000 XNUMX+ часа реч намлява 15,000 XNUMX+ часа транскрипции от 1 милиона души през 773 области на Индия.
Като един от ключовите доставчици за тази национална мисия, Сайп изигра централна роля в курирането на спонтанни речеви данни, транскрипция и събиране на метаданни – полагайки основата за справедливи гласови технологии, които наистина представят истинската Индия.
Визията зад проекта Vaani
Проектът Vaani е предназначен да преодолее празнината в включването на AI чрез създаване на най-големият мултимодален, многоезичен набор от данни с отворен код в Индия. Тези данни са основополагащи за разработването на точно разпознаване на реч, превод и генериращи AI системи на местните индийски езици – много от които са недостатъчно представени в глобалните технологични екосистеми.
Дългосрочната визия е да захранваме въздействащи приложения в:
- Здравеопазване – Гласова телемедицина
- Образование – Народни платформи за обучение
- Управление – Разговорни интерфейси за услуги за граждани
- Достъпност – Гласови инструменти за потребители с различни възможности
- Отговор на бедствието – Комуникация в реално време на местни диалекти
Ролята на Shaip в Project Vaani
На Shaip е поверено събирането на 8,000 часа спонтанна реч намлява 800 часа ръчно проверени транскрипции. Нашата отговорност обхващаше включването на високоговорители, аудио заснемане, маркиране на метаданни, координиране на транскрипцията и контрол на качеството.
8,000 часа на спонтанни аудио данни
Записи от 400+ носители на езика на област, представляващи различни възрастови групи, полове и диалекти
80 области, покрит
Подсказване, базирано на изображения естествена, контекстуална реч
Ето какво направи нашия подход уникален:
Разнообразие на ниво област
Набавихме записи от 80 области, разпространени в щати като Бихар, Утар Прадеш, Карнатака, Западен Бенгал и Махаращра. Всеки район предостави 100 часа аудио данни, осигурявайки регионален баланс. Ангажирахме носители на езика, като гарантирахме представяне на регионални акценти и диалекти, често пренебрегвани в основните набори от данни за AI.
Езиково и демографско представяне
Набавихме записи от 80 области, разпространени в щати като Бихар, Утар Прадеш, Карнатака, Западен Бенгал и Махаращра. Всеки район предостави 100 часа аудио данни, осигурявайки регионален баланс. Ангажирахме носители на езика, като гарантирахме представяне на регионални акценти и диалекти, често пренебрегвани в основните набори от данни за AI.
Реч, подсказана от изображения
За да стимулират спонтанния и естествен речник, на участниците бяха показани 45–90 изображения на сесия и помолени да ги опишат. Участниците бяха подканени да използват различни изображения - вариращи от културни символи до ежедневни предмети - за да предизвикат естествени, спонтанни отговори на родния си език. Това гарантира, че записите отразяват контекстуална реч от реалния свят - от съществено значение за обучението на напреднали системи за НЛП.
Висококачествени стандарти за транскрипция
Само 10% от говорните данни бяха транскрибирани - което възлиза на 800 часа. Транскрипциите са извършени от местни лингвисти в радиус от 20–50 km от говорещия, като се гарантира познаване на диалектите и нюансите. Проверката на втория слой гарантира <5% процент на грешка в думата (WER).
Строго осигуряване на качеството
Аудио данните трябваше да отговарят на висока летва: без фонов шум, ехо, вибрации на телефона или изкривявания. Аудиото е записано в тиха среда без ехо. Файловете бяха подложени на строг преглед, за да отговарят на указанията за яснота на речта, нива на шум, точност на метаданните и проверка на високоговорителя. Маркирането на метаданни трябваше да бъде точно във всички файлове и всички записи бяха проверени за подравняване на високоговорители и местоположение.
Предизвикателства, които решихме
- Дистанционна логистика – Управление на екипи в 80 области
- Разнообразие на говорителите – Включване на 32,000 XNUMX+ проверени високоговорителя в отдалечени местоположения
- Културна чувствителност – Уважаване на местните обичаи и диалекти
- Целостта на данните – Покриване на стандартите за качество и съответствие
- Контрол на качеството – в множество езикови и културни контексти
Успехът ни се свеждаше до прецизно планиране, валидиране, управлявано от технологии, и партньорства с местни екипи, които разбираха културните нюанси на всеки регион.
Въздействие и приложения
Приносът на Shaip не само ускори напредъка на проекта Vaani, но и постави основата за приобщаващ AI в Индия. Подбраният набор от речеви данни вече се използва за изграждане и фина настройка на AI модели за:
- Народни гласови асистенти
- Регионални машини за превод
- Достъпни средства за комуникация за хора с увредено зрение
- Управлявани AI edtech платформи за селски студенти
- Селска телемедицина
- Гласови услуги за граждани
- Превод и транскрипция в реално време
Заключение
Проектът Vaani е смела стъпка към приобщаващ, достъпен AI - и Shaip има честта да играе основополагаща роля. Работата на Shaip по Project Vaani потвърждава нашия ангажимент за изграждане на етични, приобщаващи AI системи, вкоренени в разнообразието и представянето. С над 8,000 часа събрана реч и 800 часа транскрибирани, ние сме горди, че участвахме в един от най-визионерските проекти за цифрово включване в Индия.
Тъй като Project Vaani продължава към своята по-голяма цел от 150,000 XNUMX+ часа данни, ние сме готови да подкрепим следващата граница на иновациите на AI, която говори на – и за – всеки индиец.
Искате ли да си партнирате с нас, за да създадете AI, който разбира реалния свят? www.shaip.com