Shaip вече е част от екосистемата Ubiquity: Същият екип - сега подкрепен от разширени ресурси за поддръжка на клиенти в голям мащаб. |
Събиране на данни за изказване

Какво е „изказване“ в изкуствения интелект?: Примери, набори от данни и най-добри практики

Чудили ли сте се как чатботовете и виртуалните асистенти се събуждат, когато кажете „Хей, Siri“ или „Alexa“? Това се дължи на колекцията от текстови изказвания или задействащи думи, вградени в софтуера, който активира системата веднага щом чуе програмираната дума за събуждане.

Въпреки това, цялостният процес на създаване на звуци и данни за изказване не е толкова прост. Това е процес, който трябва да се извърши с правилната техника, за да получите желаните резултати. Следователно този блог ще сподели пътя към създаването на добри изказвания/задействащи думи, които работят безпроблемно с вашия разговорен AI.

Какво е „изказване“ в ИИ?

В разговорния изкуствен интелект (чатботове, гласови асистенти), изказването е кратък фрагмент от потребителски вход – точните думи, които човек казва или въвежда. Моделите използват изказванията, за да разберат намерението (целта) на потребителя и всички обекти (детайли като дати, имена на продукти, суми).

Прости примери

Бот за електронна търговия

Изказване: „Проследяване на поръчката ми 123-456"

  • Намерение: Проследяване на поръчката
  • Обект: order_id = 123-456

Телекомуникационен бот

Изказване: „Надстройте моя план за данни"

  • Намерение: План за промяна
  • Обект: plan_type = данни

Гласов асистент за банкиране

Изказване (изговорено): „W“Какво е текущото ми салдо днес?"

  • Намерение: CheckBalance
  • Обекти: account_type = разплащателна сметка, date = днес

Защо вашият разговорен изкуствен интелект се нуждае от добри данни за изказванията

Ако искате вашият чатбот или гласов асистент да се чувства полезен, а не крехък, започнете с по-добри данни за изказванията. Изказванията са суровите фрази, които хората казват или пишат, за да свършат неща („резервирай ми стая за утре“, „промени плана ми“, „какъв е статусът?“). Те захранват класификацията на намеренията, извличането на обекти и в крайна сметка клиентското изживяване. Когато изказванията са разнообразни, представителни и добре обозначени, вашите модели научават правилните граници между намеренията и се справят с хаотичния, реален вход с спокойствие.

Изграждане на вашето хранилище за изказвания: прост работен процес

Изграждане на хранилище за изказвания

1. Започнете с езика на реалния потребител

Мина логове на чатове, заявки за търсене, IVR преписи, бележки на агентии имейли на клиенти. Групирайте ги по потребителска цел, за да създадете начални намерения. (Ще уловите разговорни изрази и ментални модели, за които не бихте се сетили в стая.)

2. Създавайте вариации нарочно

За всяко намерение, авторът на различни примери:

  • Преформулирайте глаголите и съществителните имена („отказ“, „спиране“, „край“; „план“, „абонамент“).
  • Комбинирайте дължината на изреченията и структурите им (въпрос, директива, фрагмент).
  • Включете печатни грешки, съкращения, емоджита (за чат), превключване на кодове, където е уместно.
  • Добавете отрицателни случаи, които изглеждат подобни, но би трябвало не карта за тази цел.

3. Балансирайте часовете си

Изключително едностранчивото обучение (напр. 500 примера за едно намерение и 10 за други) вреди на качеството на прогнозирането. Поддържайте размерите на намеренията са относително равни и ги развивайте заедно, както ви учи трафикът.

4. Проверете качеството преди обучение

Блокирайте данни с нисък сигнал с валидатори по време на създаването/събирането:

  • Разпознаване на език: Уверете се, че примерите са на целевия език.
  • Детектор на безсмислици: хващам безсмислени низове.
  • Дублиращи се/почти дублиращи се проверки: поддържайте високо разнообразие.
  • Regex/правопис и граматика: прилагайте стилови правила, където е необходимо.
    Интелигентните валидатори (както се използват от Appen) могат да автоматизират големи части от този контрол на достъпа.

5. Етикетирайте обектите последователно

Дефиниране на типове слотове (дати, продукти, адреси) и показване на анотатори как да маркираме границиМодели като Модел по избор в LUIS може да направи дълги, променливи диапазони (напр. имена на документи), които объркват моделите.

6. Тествайте сякаш е производство

Тласък невидим реални изказвания към крайна точка за прогнозиране или бот за етапно определяне, грешни класификации на прегледи и насърчаване на двусмислени примери в обучението. Направете това цикъл: събиране → обучение → преглед → разширяване.

Какво всъщност означава „разхвърляна реалност“ (и как да се справим с нея)

Истинските потребители рядко говорят с перфектни изречения. Очаквайте:

  • Фрагменти: „възстановяване на такса за доставка“
  • Сложни цели: „анулиране на поръчката и повторна поръчка в синьо“
  • Имплицитни обекти: „изпратете до моя офис“ (трябва да знаете кой офис)
  • двусмислие: „промяна на плана ми“ (кой план? кога е в сила?)

Практически решения

  • Осигурете уточняващи подкани само когато е необходимо; избягвайте да прекалявате с исканията.
  • Улавяне пренасяне на контекст (местоимения като „тази поръчка“, „последният“).
  • употреба резервни намерения с целенасочено възстановяване: „Мога да ви помогна да отмените или промените плановете си – какво бихте искали?“
  • Монитор намерение за здраве (объркване, сблъсък) и добавете данни там, където са слаби

Гласови асистенти и думи за събуждане: различни данни, подобни правила

Гласови асистенти и думи за събуждане Думите за събуждане („Хей, Сири“, „Алекса“, персонализирани фрази за събуждане) са специализирано подмножество от изказвания със силни акустични ограничения, но начин на мислене за отразяване все още важи: различни високоговорители, устройства и среди. След събуждане, езикови изказвания поемете изпълнението на същинската задача („включете осветлението“, „свирете джаз“). Дръжте си събуждам намлява задача различни набори от данни и ги оценявайте поотделно.

Кога (и как) да използвате готови спрямо персонализирани данни

Готови срещу персонализирани данни

  • Готови: стартиране на покритие на нови места, след което измерване къде остава объркването.
  • Custom: уловете езика на вашия домейн (термини на политиката, имена на продукти) и „гласа на марката“.
  • Смесен - Blended Започнете с общи данни, след което добавете високоточни данни за намеренията с най-голямо отклонение или въздействие върху приходите.

Ако имате нужда от бърз вход, Shaip го предлага колекция от изказвания и готови набори от данни за реч/чат на много езици; вижте казуса за внедряване на многоезичен асистент.

Контролен списък за изпълнение

Контролен списък за изпълнение

  • Дефинирайте намерения и обекти с примери и отрицателен случаи
  • автор разнообразен, балансиран изказвания за всяко намерение (започнете с малко, увеличавайте седмично)
  • Добавете валидатори (език, безсмислици, дубликати, регекс) преди обучението
  • Настройте цикли на преглед от реалния трафик; промотирайте двусмислените елементи до обучение 
  • Следя намерение за здраве и сблъсъци; поправете с нови изказвания
  • Преоценете по канал/локал, за да забележите отклонението рано

Как Шайп може да помогне

  • Колекция и етикетиране на персонализирани изказвания (чат + глас) с валидатори, за да се поддържа високо качество.
  • Готови за използване набори от данни на над 150 езика/варианта за бързо първоначално стартиране.
  • Текущи програми за преглед които превръщат трафика на живо във високосигнални данни за обучение – безопасно (контроли на PII).

Разгледайте нашите многоезични казус за събиране на изказвания.

Социален дял