Въздействие на разнообразието върху данните за обучението

Разнообразни данни за обучение на AI за приобщаване и елиминиране на пристрастия

Изкуственият интелект и големите данни имат потенциала да намерят решения на глобални проблеми, като същевременно дават приоритет на местните проблеми и трансформират света по много дълбоки начини. AI предлага решения за всички – и във всички настройки, от домовете до работните места. AI компютри, с Machine Learning обучение, може да симулира интелигентно поведение и разговори по автоматизиран, но персонализиран начин.

И все пак AI е изправен пред проблем с включването и често е предубеден. За щастие, фокусирайки се върху етика на изкуствения интелект може да въведе по-нови възможности по отношение на диверсификация и включване чрез елиминиране на несъзнателни пристрастия чрез разнообразни данни за обучение.

Значение на разнообразието в данните за обучение на AI

Разнообразие на данни за обучение на изкуствен интелект Разнообразието и качеството на данните за обучение са свързани, тъй като едното влияе на другото и оказва влияние върху резултата от решението на AI. Успехът на AI решението зависи от разнообразни данни на него се тренира. Разнообразието от данни предотвратява пренастройването на AI – което означава, че моделът изпълнява или се учи само от данните, използвани за обучение. С пренастройване, AI моделът не може да предостави резултати, когато се тества върху данни, които не се използват в обучението.

Текущото състояние на обучението по ИИ данни

Неравенството или липсата на разнообразие в данните би довело до несправедливи, неетични и неприобщаващи AI решения, които биха могли да задълбочат дискриминацията. Но как и защо разнообразието в данните е свързано с AI решенията?

Неравномерното представяне на всички класове води до погрешно идентифициране на лица – един важен случай е Google Photos, който класифицира черна двойка като „горили“. И Meta подканва потребител, гледащ видеоклип на черни мъже, дали потребителят иска да „продължи да гледа видеоклипове на примати“.

Например, неточна или неправилна класификация на етнически или расови малцинства, особено в чатботове, може да доведе до предразсъдъци в системите за обучение с ИИ. Според доклада за 2019 г Дискриминиращи системи – пол, раса, власт в AI, повече от 80% от преподавателите по ИИ са мъже; жените изследователи на AI във FB представляват само 15% и 10% в Google.

Въздействието на различните данни за обучение върху производителността на AI

Въздействие на разнообразието върху данните за обучението Изоставянето на конкретни групи и общности от представянето на данни може да доведе до изкривени алгоритми.

Пристрастията на данните често се въвеждат случайно в системите за данни – чрез по-малка извадка от определени раси или групи. Когато системите за лицево разпознаване се обучават на различни лица, това помага на модела да идентифицира специфични характеристики, като позицията на лицевите органи и цветовите вариации.

Друг резултат от наличието на небалансирана честота на етикетите е, че системата може да счита малцинството за аномалия, когато е подложена на натиск да произведе резултат за кратко време.

Нека обсъдим вашето изискване за данни за обучение на AI днес.

Постигане на разнообразие в данните за обучение на AI

От друга страна, генерирането на разнообразен набор от данни също е предизвикателство. Пълната липса на данни за определени класове може да доведе до недостатъчно представителство. То може да бъде смекчено, като екипите за разработчици на AI станат по-разнообразни по отношение на умения, етническа принадлежност, раса, пол, дисциплина и др. Нещо повече, идеалният начин за справяне с проблемите с разнообразието на данните в AI е да се изправите пред него от самото начало, вместо да се опитвате да поправите това, което е направено – вливане на разнообразие на етапа на събиране на данни и обработка.

Независимо от шума около AI, той все още зависи от данните, събрани, избрани и обучени от хората. Вроденото пристрастие при хората ще се отрази в данните, събрани от тях, и това несъзнателно пристрастие се прокрадва и в моделите на ML. 

Стъпки за събиране и куриране на различни данни за обучение

Включване на разнообразие от данни за обучение

Разнообразие от данни може да се постигне чрез:

  • Внимателно добавете повече данни от по-слабо представени класове и изложете моделите си на разнообразни точки от данни. 
  • Чрез събиране на данни от различни източници на данни. 
  • Чрез увеличаване на данни или изкуствено манипулиране на набори от данни за увеличаване/включване на нови точки от данни, които са ясно различни от оригиналните точки от данни. 
  • Когато наемате кандидати за процеса на разработване на AI, премахнете цялата информация, която не е свързана с работата, от приложението. 
  • Подобряване на прозрачността и отчетността чрез подобряване на документирането на разработването и оценката на моделите. 
  • Въвеждане на регулации за изграждане на разнообразие и включване в AI системи от най-ниско ниво. Различни правителства са разработили насоки за осигуряване на разнообразие и смекчаване на пристрастията на AI, които могат да доведат до несправедливи резултати. 

[Прочетете също: Научете повече за процеса на събиране на данни за AI обучение ]

Заключение

Понастоящем само няколко големи технологични компании и центрове за обучение участват изключително в разработването на AI решения. Тези елитни пространства са потопени в изключване, дискриминация и пристрастия. Това обаче са пространствата, в които се разработва ИИ, и логиката зад тези усъвършенствани системи с ИИ е изпълнена със същите пристрастия, дискриминация и изключване, понесени от по-слабо представените групи. 

Докато обсъждаме многообразието и недискриминацията, важно е да поставим под въпрос хората, от които то облагодетелства и тези, от които вреди. Трябва също така да разгледаме кого поставя в неизгодно положение – като налага идеята за „нормален“ човек, ИИ потенциално може да изложи на риск „другите“. 

Обсъждането на разнообразието в данните на AI без признаване на властови отношения, справедливост и справедливост няма да покаже по-голямата картина. За да разберем напълно обхвата на разнообразието в данните за обучение на AI и как хората и AI могат заедно да смекчат тази криза, свържете се с инженерите в Shaip. Имаме различни AI инженери, които могат да предоставят динамични и разнообразни данни за вашите AI решения. 

Социален дял