В усилията ни да изградим стабилни и безпристрастни AI решения е уместно да се съсредоточим върху обучението на моделите върху безпристрастен, динамичен и представителен набор от данни. Нашият процес на събиране на данни е изключително важен за разработването на надеждни AI решения. В тази връзка събирането Данни за обучение на AI чрез групови работници се превръща в критичен аспект на стратегията за събиране на данни.
В тази статия нека проучим ролята на тълпата работници, нейното въздействие върху развитието на ИИ алгоритми за обучение и ML модели, както и необходимостта и ползите, които придава на целия процес.
Защо от работещите в тълпата се изисква да създават AI модели?
Като хора, ние генерираме тонове данни, но само част от тези генерирани и събрани данни имат стойност. Поради липсата на стандарти за сравнителен анализ на данни, повечето от събраните данни са или пристрастни, надупчени с проблеми с качеството, или не са представителни за околната среда. Тъй като все повече и повече машинно обучение и се разработват модели за дълбоко обучение, които процъфтяват върху огромни количества данни, необходимостта от по-добри, по-нови и разнообразни набори от данни се усеща все повече.
Това е мястото, където работещите в тълпата влизат в игра.
Краудсорсингът на данни изгражда набор от данни с участието на големи групи хора. Работниците на тълпата вливат човешкия интелект в изкуствения интелект.
Платформи за краудсорсинг дайте микрозадачи за събиране на данни и анотация на голяма и разнообразна група от хора. Краудсорсингът позволява на компаниите да получат достъп до масивна, динамична, рентабилна и мащабируема работна сила.
Най-популярната платформа за краудсорсинг – Amazon Mechanical Turk, успя да създаде 11 хиляди диалога между хора в рамките на 15 часа и плати на работниците $0.35 за всеки успешен диалог. Работниците на тълпата се наемат за такава оскъдна сума, което хвърля светлина върху значението на изграждането на етични стандарти за източник на данни.
Теоретично звучи като умен план, но не е лесна стратегия за изпълнение. Анонимността на тълпата работници доведе до проблеми с ниско заплащане, незачитане на правата на работниците и работа с лошо качество, което се отразява на производителността на AI модела.
Ползите от наличието на колективни работници за източник на данни
Чрез ангажирането на разнообразна група от тълпа работници, разработчиците на базирани на AI решения могат да разпределят микрозадачи и да събират разнообразни и широко разпространени наблюдения бързо и на сравнително ниска цена.
Някои от забележителните ползи от наемането на тълпа работници за AI проекти са
По-бързо време до пазара: Според изследване на Cognilytica, близо 80% от изкуствен интелект времето на проекта се изразходва за дейности по събиране на данни, като почистване на данни, етикетиране и обобщаването им. Само 20% от времето се отделя за развитие и обучение. Традиционните бариери пред генерирането на данни са елиминирани, тъй като голям брой сътрудници могат да бъдат наети за кратко време.
Рентабилно решение: Събиране на данни от тълпа намалява времето и енергията, изразходвани за обучение, набиране и включването им на борда. Това елиминира необходимите разходи, време и ресурси, тъй като работната сила е наета по метода на заплащане за изпълнение на задача.
Увеличава разнообразието в набора от данни: Разнообразието от данни е от решаващо значение за цялото обучение за AI решение. За да може един модел да дава безпристрастни резултати, той трябва да бъде обучен върху разнообразен набор от данни. С краудсорсинга на данни е възможно да се генерират различни (географски, езици, диалекти) набори от данни с малко усилия и разходи.
Подобрява скалируемостта: Когато наемете надеждни краудработници, можете да сте сигурни високо качество събиране на данни, което може да бъде мащабирано въз основа на нуждите на вашия проект.
Вътрешни срещу краудсорсинг – Кой излиза като победител?
Вътрешни данни | Данни от краудсорсинг |
---|---|
Точността и последователността на данните могат да бъдат гарантирани. | Качеството, точността и последователността на данните могат да се поддържат, ако се използват надеждни платформи за краудсорсинг със стандартни мерки за осигуряване на качеството |
Вътрешният източник на данни не винаги е практично решение, тъй като вашият вътрешен екип може да не отговаря на изискванията на проекта. | Разнообразието на данните може да бъде осигурено, тъй като е възможно да се наеме разнородна група краудработници въз основа на нуждите на проекта. |
Скъпо набиране и обучение на работници за нуждите на проекта. | Рентабилно решение за събиране на данни тъй като е възможно да се наемат, обучават и назначават работници с по-малко инвестиции. |
Времето за излизане на пазара е дълго, тъй като вътрешното събиране на данни отнема значително време. | Времето за пускане на пазара е значително по-малко, тъй като много приноси идват бързо. |
Малка група от вътрешни сътрудници и етикети | Голяма и разнообразна група сътрудници и етикети за данни |
Поверителността на данните е много висока с вътрешен екип. | Трудно е да се поддържа поверителността на данните, когато се работи с големи групи работници по целия свят. |
По-лесно проследяване, обучение и оценка на събирачите на данни | Предизвикателство за проследяване и обучение на събирачите на данни. |
Преодоляване на пропастта между краудсорсинг работниците и заявителя.
Има остра нужда да се преодолее пропастта между краудработниците и заявителите, не само в областта на заплащането.
Има явна липса на информация от страна на заявителя, тъй като на работниците се предоставя информация само относно конкретната задача. Например, въпреки че на работниците се дават микрозадачи като запис на диалози на родния им диалект, рядко им се предоставя контекст. Те нямат необходимата информация защо правят това, което правят и как най-добре да го направят. Тази липса на информация оказва влияние върху качество на работата на тълпата.
За едно човешко същество наличието на целия контекст осигурява яснота и цел на работата му.
Добавете към тази комбинация още едно измерение на NDA – споразуменията за неразкриване, които ограничават количеството информация, предоставена на краудработника. От гледна точка на краудработника, това оттегляне на информация показва липса на доверие и намалено значение за тяхната работа.
Когато същата ситуация се погледне от другия край на спектъра, има липса на прозрачност от страна на работника. Заявителят не разбира напълно работника, натоварен да върши работата. Някои проекти може да изискват специфичен тип работник; в повечето проекти обаче има неяснота. The фундаментална истина това може да усложни оценката, обратната връзка и обучението надолу по линията.
За да се противодейства на тези трудности, е важна работата с експерти по събиране на данни с опит в предоставянето на разнообразни, подбрани и добре представени данни от широк набор от сътрудници.
Избирането на Shaip за ваш партньор за данни може да има множество предимства. Ние се фокусираме върху разнообразието и представителното разпространение на данни. Нашият опитен и всеотдаен персонал разбира принудите на всеки проект и разработва набори от данни, които могат да обучат стабилни базирани на AI решения за нула време.
[Прочетете също: Начално ръководство за данни за обучение на AI: Дефиниция, пример, набори от данни]