Изкуственият интелект и големите данни имат потенциала да намерят решения на глобални проблеми, като същевременно дават приоритет на местните проблеми и трансформират света по много дълбоки начини. AI предлага решения за всички – и във всички настройки, от домовете до работните места. AI компютри, с Machine Learning обучение, може да симулира интелигентно поведение и разговори по автоматизиран, но персонализиран начин.
И все пак AI е изправен пред проблем с включването и често е предубеден. За щастие, фокусирайки се върху етика на изкуствения интелект може да въведе по-нови възможности по отношение на диверсификация и включване чрез елиминиране на несъзнателни пристрастия чрез разнообразни данни за обучение.
Значение на разнообразието в данните за обучение на AI
Разнообразието и качеството на данните за обучение са свързани, тъй като едното влияе на другото и оказва влияние върху резултата от решението на AI. Успехът на AI решението зависи от разнообразни данни на него се тренира. Разнообразието от данни предотвратява пренастройването на AI – което означава, че моделът изпълнява или се учи само от данните, използвани за обучение. С пренастройване, AI моделът не може да предостави резултати, когато се тества върху данни, които не се използват в обучението.
Текущото състояние на обучението по ИИ данни
Неравенството или липсата на разнообразие в данните би довело до несправедливи, неетични и неприобщаващи AI решения, които биха могли да задълбочат дискриминацията. Но как и защо разнообразието в данните е свързано с AI решенията?
Неравномерното представяне на всички класове води до погрешно идентифициране на лица – един важен случай е Google Photos, който класифицира черна двойка като „горили“. И Meta подканва потребител, гледащ видеоклип на черни мъже, дали потребителят иска да „продължи да гледа видеоклипове на примати“.
Например, неточна или неправилна класификация на етнически или расови малцинства, особено в чатботове, може да доведе до предразсъдъци в системите за обучение с ИИ. Според доклада за 2019 г Дискриминиращи системи – пол, раса, власт в AI, повече от 80% от преподавателите по ИИ са мъже; жените изследователи на AI във FB представляват само 15% и 10% в Google.
Въздействието на различните данни за обучение върху производителността на AI
Изоставянето на конкретни групи и общности от представянето на данни може да доведе до изкривени алгоритми.
Пристрастията на данните често се въвеждат случайно в системите за данни – чрез по-малка извадка от определени раси или групи. Когато системите за лицево разпознаване се обучават на различни лица, това помага на модела да идентифицира специфични характеристики, като позицията на лицевите органи и цветовите вариации.
Друг резултат от наличието на небалансирана честота на етикетите е, че системата може да счита малцинството за аномалия, когато е подложена на натиск да произведе резултат за кратко време.
Постигане на разнообразие в данните за обучение на AI
От друга страна, генерирането на разнообразен набор от данни също е предизвикателство. Пълната липса на данни за определени класове може да доведе до недостатъчно представителство. То може да бъде смекчено, като екипите за разработчици на AI станат по-разнообразни по отношение на умения, етническа принадлежност, раса, пол, дисциплина и др. Нещо повече, идеалният начин за справяне с проблемите с разнообразието на данните в AI е да се изправите пред него от самото начало, вместо да се опитвате да поправите това, което е направено – вливане на разнообразие на етапа на събиране на данни и обработка.
Независимо от шума около AI, той все още зависи от данните, събрани, избрани и обучени от хората. Вроденото пристрастие при хората ще се отрази в данните, събрани от тях, и това несъзнателно пристрастие се прокрадва и в моделите на ML.
Стъпки за събиране и куриране на различни данни за обучение
Разнообразие от данни може да се постигне чрез:
- Внимателно добавете повече данни от по-слабо представени класове и изложете моделите си на разнообразни точки от данни.
- Чрез събиране на данни от различни източници на данни.
- Чрез увеличаване на данни или изкуствено манипулиране на набори от данни за увеличаване/включване на нови точки от данни, които са ясно различни от оригиналните точки от данни.
- Когато наемате кандидати за процеса на разработване на AI, премахнете цялата информация, която не е свързана с работата, от приложението.
- Подобряване на прозрачността и отчетността чрез подобряване на документирането на разработването и оценката на моделите.
- Въвеждане на регулации за изграждане на разнообразие и включване в AI системи от най-ниско ниво. Различни правителства са разработили насоки за осигуряване на разнообразие и смекчаване на пристрастията на AI, които могат да доведат до несправедливи резултати.
[Прочетете също: Научете повече за процеса на събиране на данни за AI обучение ]
Заключение
Понастоящем само няколко големи технологични компании и центрове за обучение участват изключително в разработването на AI решения. Тези елитни пространства са потопени в изключване, дискриминация и пристрастия. Това обаче са пространствата, в които се разработва ИИ, и логиката зад тези усъвършенствани системи с ИИ е изпълнена със същите пристрастия, дискриминация и изключване, понесени от по-слабо представените групи.
Докато обсъждаме многообразието и недискриминацията, важно е да поставим под въпрос хората, от които то облагодетелства и тези, от които вреди. Трябва също така да разгледаме кого поставя в неизгодно положение – като налага идеята за „нормален“ човек, ИИ потенциално може да изложи на риск „другите“.
Обсъждането на разнообразието в данните на AI без признаване на властови отношения, справедливост и справедливост няма да покаже по-голямата картина. За да разберем напълно обхвата на разнообразието в данните за обучение на AI и как хората и AI могат заедно да смекчат тази криза, свържете се с инженерите в Shaip. Имаме различни AI инженери, които могат да предоставят динамични и разнообразни данни за вашите AI решения.