Работещият AI модел е изграден върху солидни, надеждни и динамични набори от данни. Без богато и подробно Данни за обучение на AI на ръка, със сигурност не е възможно да се изгради ценно и успешно AI решение. Знаем, че сложността на проекта диктува и определя необходимото качество на данните. Но не сме съвсем сигурни колко данни за обучение са ни необходими, за да изградим персонализирания модел.
Няма ясен отговор какво точно количество данни за обучение за машинно обучение е необходимо. Вместо да работим с приблизителна цифра, ние вярваме, че набор от методи могат да ви дадат точна представа за размера на данните, който може да ви е необходим. Но преди това, нека разберем защо данните за обучение са от решаващо значение за успеха на вашия AI проект.
Значението на данните за обучение
Говорейки на фестивала Future of Everything на Wall Street Journal, Арвинд Кришна, главен изпълнителен директор на IBM, каза, че почти 80% от работата в AI проект е за събиране, почистване и подготовка на данни. И също така той беше на мнение, че бизнесите се отказват от начинанията си с ИИ, защото не могат да се справят с разходите, работата и времето, необходими за събиране на ценни данни за обучение.
Определяне на данните размер на пробата помага при проектирането на решението. Той също така помага за точната оценка на разходите, времето и уменията, необходими за проекта.
Ако се използват неточни или ненадеждни набори от данни за обучение на ML модели, полученото приложение няма да предостави добри прогнози.
Колко данни са достатъчни?
Зависи.
Количеството необходими данни зависи от няколко фактора, някои от които са:
- Сложността на Проект за машинно обучение предприемате
- Сложността на проекта и бюджет също така определете метода на обучение, който използвате.
- Нуждите от етикетиране и анотация на конкретния проект.
- Динамика и разнообразие от набори от данни, необходими за точното обучение на базиран на AI проект.
- Нуждите от качеството на данните на проекта.
Правене на обосновани предположения
Няма магическо число по отношение на минималното количество необходими данни, но има няколко практически правила, които можете да използвате, за да стигнете до рационално число.
Правилото на 10
Като правило, за да се разработи ефективен AI модел, броят на необходимите набори от данни за обучение трябва да бъде десет пъти повече от всеки параметър на модела, наричан още степени на свобода. Правилата за „10“ пъти имат за цел да ограничат променливостта и да увеличат разнообразието от данни. Като такова, това основно правило може да ви помогне да започнете проекта си, като ви даде основна представа за необходимото количество набори от данни.
Дълбоко обучение
Методите за дълбоко обучение помагат за разработването на висококачествени модели, ако на системата се предоставят повече данни. Общоприето е, че наличието на 5000 етикетирани изображения на категория трябва да е достатъчно за създаване на алгоритъм за дълбоко обучение, който може да работи наравно с хората. За да се разработят изключително сложни модели, са необходими най-малко 10 милиона етикетирани артикула.
Компютърно зрение
Ако използвате задълбочено обучение за класифициране на изображения, има консенсус, че набор от данни от 1000 етикетирани изображения за всеки клас е справедливо число.
Криви на обучение
Кривите на обучение се използват за демонстриране на ефективността на алгоритъма за машинно обучение спрямо количеството данни. Като разполагате с умението за моделиране по оста Y и набора от данни за обучение по оста X, е възможно да разберете как размерът на данните влияе върху резултата от проекта.
Недостатъците на твърде малкото данни
Може би си мислите, че е доста очевидно, че даден проект се нуждае от големи количества данни, но понякога дори големи предприятия с достъп до структурирани данни не успяват да ги осигурят. Обучението върху ограничени или тесни количества данни може да спре модели за машинно обучение от постигане на пълния им потенциал и увеличават риска от предоставяне на грешни прогнози.
Въпреки че няма златно правило и обикновено се прави грубо обобщение, за да се предвидят нуждите от данни за обучение, винаги е по-добре да имате големи набори от данни, отколкото да страдате от ограничения. Ограничението на данните, от което страда вашият модел, би било ограниченията на вашия проект.
Какво да направите, ако имате нужда от повече набори от данни
Въпреки че всеки иска да има достъп до големи масиви от данни, е по-лесно да се каже, отколкото да се направи. Получаването на достъп до големи количества набори от данни с качество и разнообразие е от съществено значение за успеха на проекта. Тук ви предоставяме стратегически стъпки, за да направите събирането на данни много по-лесно.
Отворете набор от данни
Отворените набори от данни обикновено се считат за „добър източник“ на безплатни данни. Въпреки че това може да е вярно, отворените набори от данни не са това, от което се нуждае проектът в повечето случаи. Има много места, от които могат да бъдат получени данни, като правителствени източници, отворени портали за данни на ЕС, Google Public Data Explorers и други. Има обаче много недостатъци при използването на отворени масиви от данни за сложни проекти.
Когато използвате такива набори от данни, вие рискувате обучение и тестване вашият модел на неправилни или липсващи данни. Методите за събиране на данни обикновено не са известни, което може да повлияе на резултата от проекта. Поверителността, съгласието и кражбата на самоличност са значителни недостатъци на използването на отворени източници на данни.
Разширен набор от данни
Когато имате малко количество данни за обучение но не достатъчно, за да отговори на всичките ви изисквания на проекта, трябва да приложите техники за увеличаване на данните. Наличният набор от данни е преназначен, за да отговори на нуждите на модела.
Извадките от данни ще претърпят различни трансформации, които правят набора от данни богат, разнообразен и динамичен. Един прост пример за увеличаване на данните може да се види при работа с изображения. Едно изображение може да бъде увеличено по много начини – може да бъде изрязано, преоразмерено, огледално, превърнато в различни ъгли и настройките на цвета могат да се променят.
Синтетични данни
Когато няма достатъчно данни, можем да се обърнем към генератори на синтетични данни. Синтетичните данни са полезни по отношение на трансферното обучение, тъй като моделът може първо да бъде обучен на синтетични данни и по-късно на набор от данни от реалния свят. Например, базирано на AI самоуправляващо се превозно средство може първо да бъде обучено да разпознава и анализира обекти компютърно зрение видео игри.
Синтетичните данни са от полза, когато липсва реален живот данни за обучение и тествайте вашите обучени модели. Освен това се използва и при работа с поверителността и чувствителността на данните.
Персонализирано събиране на данни
Персонализираното събиране на данни е може би идеално за генериране на набори от данни, когато други форми не дават необходимите резултати. Висококачествените набори от данни могат да бъдат генерирани с помощта на инструменти за уеб скрапиране, сензори, камери и други инструменти. Когато имате нужда от персонализирани набори от данни, които подобряват производителността на вашите модели, закупуването на персонализирани набори от данни може да е правилният ход. Няколко доставчици на услуги от трети страни предлагат своя опит.
За да се разработят високоефективни AI решения, моделите трябва да бъдат обучени на качествени надеждни набори от данни. Въпреки това не е лесно да се сдобиете с богати и подробни набори от данни, които оказват положително влияние върху резултатите. Но когато си партнирате с надеждни доставчици на данни, можете да изградите мощен AI модел със стабилна основа за данни.
Имате страхотен проект в ума си, но чакате персонализирани набори от данни, за да обучите вашите модели, или се борите да получите правилния резултат от вашия проект? Ние предлагаме обширни набори от данни за обучение за различни нужди на проекти. Използвайте потенциала на Сайп като говорите с един от нашите учени по данни днес и разбирането как сме доставяли високоефективни и качествени набори от данни за клиенти в миналото.