Събиране на данни за разговорен AI

Как да подходим за събиране на данни за разговорен AI

Днес имаме някои говорещи роботи като чатботове, виртуални асистенти и други в нашите домове, автомобилни системи, преносими устройства, решения за домашна автоматизация и т.н. Тези устройства точно слушат какво казваме и как казваме и извличат резултати или изпълняват конкретни задачи .

И ако сте използвали асистент като Siri или Alexa, ще разберете също, че те стават все по-странни с всеки изминал ден. Отговорите им са остроумни, те отвръщат, пренебрегват се, отвръщат на комплименти и се държат по-човешки от някои от колегите, които може би познавате. Не се шегуваме. Според PwC, 27% от потребителите, които са взаимодействали с скорошния си сътрудник за обслужване на клиенти, не са знаели дали говорят с човек или чатбот.

Разработването на такива сложни разговорни системи и устройства е много сложно и плашещо. Това е напълно различна игра с топка с различни подходи за развитие. Ето защо решихме, че трябва да го разбием за вас за по-лесно разбиране. Така че, ако търсите да разработите машина за разговорен AI или виртуален асистент, това ръководство ще ви помогне да получите яснота.

Значението на разговорния AI

Тъй като технологията става все по-неразделна част от живота ни под формата на по-нови устройства и системи, възниква необходимостта да се преодоляват бариери, да се нарушават конвенциите и да се измислят нови начини за взаимодействие с тях. От просто използване на свързани периферни устройства като мишка и клавиатура, преминахме към подложки за мишка, които предлагат повече удобство. След това мигрирахме към сензорни екрани, които предлагаха допълнително удобство при въвеждане на входове и изпълнение на задачи.

С устройствата, които се превръщат в продължение на самите нас, сега отключваме нова среда за командване чрез глас. Дори не е необходимо да сме близо до устройство, за да го управляваме. Всичко, което трябва да направим, е да използваме гласа си, за да го отключим и да командваме входовете си. От близката стая, когато шофирате, докато използвате друго устройство едновременно, разговорният AI изпълнява нашите планирани задачи безпроблемно. И така, откъде да започнем – всичко започва с висококачествени речеви данни за обучение на ML модели.

Основите на събирането на данни за речево обучение

Събирането и анотирането на данни за обучение на AI за разговорен AI е много различно. Има тонове тънкости, включени в човешките команди и трябва да се приложат различни мерки, за да се гарантира, че всеки аспект е пригоден за въздействащи резултати. Нека да разгледаме кои са някои от основите на говорните данни.

Разбиране на естествения език (NLU)

За да могат чатботовете и виртуалните асистенти да разбират и отговарят на това, което изпращаме текстови съобщения или команда, процес, наречен НЛУ се изпълнява. Това означава Разбиране на естествен език и включва три технически концепции за интерпретиране и обработка на различни типове входни данни.

  • Намерение

    Всичко започва с намерение. Какво се опитва да предаде, комуникира или постигне конкретен потребител чрез команда? Търси ли потребителят информация? Чакат ли актуализации за действие? Те командват ли инструкция, която системата да изпълни? Как го командват? Чрез въпрос ли е или чрез молба? Всички тези аспекти помагат на машините да разберат и класифицират намеренията и целите, за да излязат съответно с херметични отговори.

  • Колекция от изказвания

    Има разлика между командата „Къде е най-близкият банкомат?“ и командата „Намерете ми близък банкомат“. Сега хората биха признали, че и двете означават едно и също нещо, но машините трябва да бъдат обяснени с тази разлика. Те са еднакви по отношение на намерението, но начинът, по който е оформено намерението, е напълно различен.

    Събирането на изказвания е свързано с дефиниране и картографиране на различни изказвания и фрази към конкретни цели за прецизно изпълнение на задачи и отговори. Технически, специалистите по анотация на данни работят върху говорни данни или текстови данни, за да помогнат на машините да ги разграничат.

  • Извличане на обект

    Всяко изречение има специфични думи или фрази, които имат подчертана тежест и именно този акцент води до тълкуване на контекста и целта. Машините, подобно на твърдите системи, които са, трябва да бъдат хранени от лъжица такива същества. Например „Къде мога да намеря струни от моята китара близо до 6-то авеню?“

    Ако прецизирате изречението, намирането е същност едно, струните са две, китарата е три и 6-то авеню е 4. Тези субекти се събират заедно от машини, за да извлекат подходящи резултати и за да се случи това, експерти работят в задната част.

Готови набори от гласови/говорни/аудио данни за по-бързо обучение на вашия разговорен AI модел

Проектиране на диалози за разговорен AI

Целта на AI е предимно възпроизвеждане на човешкото поведение чрез жестове, действия и отговори. Съзнателният човешки ум има вродената способност да разбира контекста, намерението, тона, емоциите и други фактори и да реагира по съответния начин. Но как машините могат да разграничат тези аспекти? 

Проектиране на диалози за разговорен AI е много сложно и което е по-важно, доста невъзможно е да се разработи универсален модел. Всеки индивид има различен начин на мислене, говорене и реагиране. Дори в отговорите ние всички формулираме мислите си по уникален начин. Така че машините трябва да слушат и да реагират съответно. 

Това обаче също не е гладко. Когато хората говорят, се намесват фактори като акценти, произношение, етническа принадлежност, език и други и за машините не е лесно да разберат и изтълкуват погрешно думите и да отговорят. Определена дума може да бъде разбрана от машините по безброй начини, когато се диктува от индиец, британец, американец и мексиканец. Има тонове езикови бариери, които влизат в действие и най-практичният начин да се създаде система за отговор е чрез визуално програмиране, което е базирано на блок-схеми. 

Чрез специални блокове за жестове, отговори и задействания, авторите и експертите могат да помогнат на машините да развият характер. Това е по-скоро като алгоритъм, който машината може да използва, за да излезе с правилните отговори. Когато се подаде вход, информацията протича през съответните фактори, което води до правилния отговор, който машините да доставят. 

Наберете D за разнообразие

Както споменахме, човешките взаимодействия са много уникални. Хората по света идват от различни сфери на живота, произход, националност, демография, етнос, акценти, дикция, произношение и много други. 

За да може един разговорен бот или система да работи универсално, той трябва да бъде обучен с възможно най-разнообразни данни за обучение. Ако, например, модел е бил обучен само с речеви данни на един конкретен език или етническа принадлежност, нов акцент би объркал системата и би я принудил да дава грешни резултати. Това е не само неудобно за собствениците на фирми, но и обидно за потребителите. 

Ето защо фазата на разработка трябва да включва данни за обучение на AI от богат набор от различни набори от данни, съставени от хора от всички възможни среди. Колкото повече акценти и етноси разбира вашата система, толкова по-универсална ще бъде тя. Освен това, това, което би дразнело потребителите повече, не е неправилното извличане на информация, а неразбирането на въведените от тях данни на първо място. 

Премахването на пристрастията трябва да бъде ключов приоритет и един от начините, по който компаниите биха могли да направят това, е като изберат данни, получени от тълпа. Когато събирате своите речеви или текстови данни, вие позволявате на хора от цял ​​свят да допринесат за вашите изисквания, което прави вашия пул от данни само полезен (Прочетете нашите блог за да разберат ползите и капаните от изнасянето на данни на краудсорсинг служители). Сега вашият модел ще разбира различни акценти и произношения и ще реагира по съответния начин. 

Пътят напред

Разработването на ИИ за разговор е толкова трудно, колкото и отглеждането на бебе. Единствената разлика е, че бебето в крайна сметка ще разбере нещата и ще стане по-добро в автономното общуване. Това са машините, които трябва да бъдат последователно тласкани. В момента има няколко предизвикателства в това пространство и трябва да признаем факта, че имаме някои от най-революционните системи за разговорен AI, които се появяват въпреки тези предизвикателства. Нека изчакаме и видим какво крие бъдещето за нашите приятелски настроени квартални чатботове и виртуални асистенти. Междувременно, ако възнамерявате да разработите AI за разговори като Google Home за вашия бизнес, свържете се с нас за вашите нужди от данни за обучение и анотации за AI.

Социален дял