Успехът на всеки AI модел зависи от качеството на данните, подавани в системата. ML системите работят с големи количества данни, но не може да се очаква да работят с всякакви данни. Трябва да бъде висококачествени данни за обучение на AI. Ако изходът от AI модела трябва да бъде автентичен и точен, няма нужда да казваме, че данните за обучение на системата трябва да бъдат с високи стандарти.
Данните, върху които се обучават моделите AI и ML, трябва да бъдат с първокласно качество, за да може бизнесът да извлече смислени и подходящи прозрения от тях. И все пак осигуряването на огромни обеми разнородни данни представлява предизвикателство за компаниите.
Компаниите трябва да разчитат на доставчици като Shaip, които прилагат строги мерки за управление на качеството на данните в своите процеси, за да се справят с това предизвикателство. Освен това, в Shaip, ние също предприемаме непрекъсната трансформация на нашите системи, за да отговорим на развиващите се предизвикателства.
Въведение в управлението на качеството на данните на Shaip
В Shaip разбираме значението на надеждните данни за обучение и тяхната роля в разработването на ML модели и резултата от решения, базирани на AI. В допълнение към проверката на нашите работници за умения, ние сме еднакво фокусирани върху развитието на тяхната база от знания и личностно развитие.
Ние следваме стриктни насоки и стандартни оперативни процедури, прилагани на всички нива на процеса, така че нашите данни за обучение да отговарят на стандарта за качество.
Управление на качеството
Нашият работен процес за управление на качеството изигра важна роля в предоставянето на модели за машинно обучение и AI. С обратна връзка в цикъл, нашият модел за управление на качеството е научно тестван метод, който е допринесъл за успешното изпълнение на няколко проекта за нашите клиенти. Нашият процес на одит на качеството протича по следния начин.
- Преглед на договора
- Създайте контролен списък за одит
- Източник на документи
- Двуслоен одит на източника
- Модериране на текста на анотацията
- Анотация Двуслоен одит
- Доставка на работа
- Отзиви на клиенти
Подбор и адаптиране на служители на Crowdsource
Нашият строг подбор на работници и процесът на адаптиране ни отличават от останалата част от конкуренцията. Ние предприемаме прецизен процес на подбор, за да привлечем само най-квалифицираните анотатори въз основа на контролния списък за качество. Ние считаме:
- Предишен опит като текстов модератор, за да гарантираме, че техните умения и опит отговарят на нашите изисквания.
- Изпълнение в предишни проекти, за да се гарантира, че тяхната производителност, качество и продукция са на ниво с нуждите на проекта.
- Обширните познания в областта са необходимо условие за избора на конкретен работник за конкретен сектор.
Нашият процес на подбор не свършва тук. Подлагаме работниците на примерен тест за анотации, за да проверим тяхната квалификация и представяне. Те ще бъдат избрани въз основа на представянето в изпитанието, анализа на несъгласието и въпросите и отговорите.
След като работниците бъдат избрани, те ще преминат през задълбочено обучение с помощта на Project SOW, насоки, методи за вземане на проби, уроци и други в зависимост от нуждите на проекта.
Контролен списък за събиране на данни
Въведени са двуслойни проверки на качеството, за да се гарантира само висококачествени данни за обучение се предава на следващия отбор.
Ниво 1: Проверка за осигуряване на качеството
QA екипът на Shaip прави проверка на качеството на ниво 1 за събиране на данни. Те проверяват всички документи и те бързо се валидират по необходимите параметри.
Ниво 2: Проверка на критичен анализ на качеството
Екипът на CQA, състоящ се от акредитирани, опитни и квалифицирани ресурси, ще оцени останалите 20% от ретроспективните проби.
Някои от елементите от контролния списък за качество на източника на данни включват,
- URL източникът автентичен ли е и позволява ли извличане на данни в мрежата?
- Има ли разнообразие в избраните URL адреси, така че да може да се избегне пристрастие?
- Съдържанието валидирано ли е за уместност?
- Съдържанието включва ли категории за модериране?
- Покрити ли са приоритетните домейни?
- Видът на документа произхожда ли, като се има предвид разпространението на типа документ?
- Всеки клас на модериране съдържа ли плочата с минимален обем?
- Следва ли се процесът на обратна връзка в цикъл?
Контролен списък за анотация на данни
Подобно на събирането на данни, ние също имаме два слоя контролен списък за качество за анотация на данни.
Ниво 1: Проверка за осигуряване на качеството
Този процес гарантира, че 100% от документите са правилно валидирани спрямо параметрите за качество, определени от екипа и клиента.
Ниво 2: Проверка на критичен анализ на качеството
Този процес гарантира, че 15 до 20% от ретроспективните проби също са валидирани и качеството е гарантирано. Тази стъпка се предприема от квалифициран и опитен екип на CQA с минимум 10 години опит в управлението на качеството и притежатели на черен колан.
- Последователност в модерирането на текст от потребителите
- Проверка дали за всеки документ се използват правилните фрази и класове за модериране
- Проверка на метаданните
Ние също така предоставяме ежедневна обратна връзка въз основа на Анализ на Парето за да се гарантира, че тяхната работа е в съответствие с изискванията на клиента.
Въведохме друг слой анализ на ефективността, за да се съсредоточим върху анотаторите с най-ниска ефективност, използвайки управление на долния квартил. Преди окончателната доставка ние също гарантираме, че хигиенните проверки на пробите са завършени.
Параметър Праг
В зависимост от насоките на проекта и изискванията на клиента, имаме праг на параметрите от 90 до 95%. Нашият екип е оборудван и опитен, за да предприеме някой от следните методи, за да гарантира по-високи стандарти за управление на качеството.
- F1 Резултат или F Измерване – за оценка на ефективността на два класификатора – 2* ((Прецизност * Припомняне)/ (Прецизност + Припомняне))
- DPO или методът Дефекти на възможност се изчислява като съотношение на дефектите, разделено на възможностите.
Примерен контролен списък за одит
Примерният контролен списък за одит на Shaip е пълна процедура за персонализиране, която може да бъде пригодена, за да отговори на изискванията на проекта и клиента. Може да бъде модифициран въз основа на получената обратна връзка от клиента и финализиран след задълбочено обсъждане.
- Проверка на езика
- Проверка на URL и домейн
- Проверка на разнообразието
- Обем на език и клас на модериране
- Насочени ключови думи
- Вид на документа и уместност
- Проверка на токсични фрази
- Проверка на метаданни
- Проверка за последователност
- Проверка на класа на анотацията
- Други задължителни проверки по желание на клиента
Предприемаме строги мерки за поддържане на стандартите за качество на данните, защото разбираме, че всички базирани на AI модели се управляват от данни. И, имайки висококачествени данни за обучение е необходимо за всички модели на AI и машинно обучение. Ние разбираме критичността на данните за качествено обучение и тяхното значение за производителността и успеха на вашите AI модели.