Разпознаване на именуван обект (NER)

Какво е разпознаване на наименувани обекти (NER) – пример, случаи на употреба, ползи и предизвикателства

Всеки път, когато чуем дума или прочетем текст, имаме естествената способност да идентифицираме и категоризираме думата по хора, място, местоположение, ценности и др. Хората могат бързо да разпознаят дума, да я категоризират и да разберат контекста. Например, когато чуете думата „Стив Джобс“, можете веднага да се сетите за поне три до четири атрибута и да разделите обекта в категории,

  • Лице: Стив Джобс
  • Компания: iPhone
  • местоположение: Калифорния

Тъй като компютрите нямат тази естествена способност, те се нуждаят от нашата помощ, за да идентифицират думи или текст и да ги категоризират. Това е къде Разпознаване на име на обект (NER) влиза в игра.

Нека да разберем накратко NER и връзката му с NLP.

Какво е разпознаване на именуван обект?

Разпознаването на именуван обект е част от обработката на естествен език. Основната цел на Нир е да се обработва структурирани и неструктурирани данни и класифицира тези наименувани обекти в предварително дефинирани категории. Някои често срещани категории включват име, местоположение, компания, време, парични стойности, събития и др.

Накратко, NER се занимава с:

  • Разпознаване/откриване на именуван обект – Идентифициране на дума или поредица от думи в документ.
  • Класификация на именуван обект – Класифициране на всеки открит обект в предварително дефинирани категории.

Но как NER е свързан с NLP?

Обработката на естествен език помага за разработването на интелигентни машини, способни да извличат значение от реч и текст. Машинното обучение помага на тези интелигентни системи да продължат да учат чрез обучение на голямо количество естествен език набор от данни.

Най-общо НЛП се състои от три основни категории:

  • Разбиране на структурата и правилата на езика – Синтаксис
  • Извличане на значението на думи, текст и реч и идентифициране на техните взаимоотношения – Семантика
  • Идентифициране и разпознаване на изговорени думи и преобразуването им в текст – Реч

NER помага в семантичната част на НЛП, извличайки значението на думите, идентифицирайки ги и ги локализирайки въз основа на техните взаимоотношения.

Примери за разпознаване на именуван обект

Някои от често срещаните примери за предварително определени категоризация на субекта са:

Примери за ner

Apple: е обозначено като ORG (Организация) и маркирано в червено.

Днес: е обозначено като ДАТА и маркирано в розово.

Второ: е обозначено като КОЛИЧЕСТВО и маркирано в зелено.

iPhone SE: е етикетиран като COMM (търговски продукт) и маркиран в синьо.

4.7-инчов: е обозначено като КОЛИЧЕСТВО и маркирано в зелено.

Двусмислие при разпознаването на именуван обект

Категорията, към която принадлежи даден термин, е интуитивно доста ясна за хората. Това обаче не е случаят с компютрите – те срещат проблеми с класификацията. Например:

Манчестър Сити (организация) спечели трофея на Висшата лига, докато в следващото изречение организацията се използва по различен начин. Манчестър Сити (Адрес) беше текстилна и индустриална електростанция.

Вашият модел NER се нуждае данни за обучение за провеждане на точен извличане на обекти и класификация. Ако обучавате своя модел на Шекспиров английски, няма нужда да казвам, че той няма да може да дешифрира Instagram.

Различни NER подходи

Основната цел на a NER модел е да етикетирате обекти в текстови документи и да ги категоризирате. Следните три подхода обикновено се използват за тази цел. Можете обаче да изберете да комбинирате и един или повече методи.

Различните подходи за създаване на NER системи са:

  • Системи, базирани на речници

    Базираната на речник система е може би най-простият и фундаментален NER подход. Ще използва речник с много думи, синоними и колекция от речници. Системата ще провери дали определен обект, присъстващ в текста, е наличен и в речника. Чрез използване на алгоритъм за съпоставяне на низове се извършва кръстосана проверка на обекти.

    Един недостатък на използването на този подход е необходимостта от постоянно надграждане на набора от речникови данни за ефективното функциониране на модела NER.

  • Системи, базирани на правила

    При този подход информацията се извлича въз основа на набор от предварително зададени правила. Има два основни набора от използвани правила,

    Правила, базирани на шаблони – Както подсказва името, базираното на шаблон правило следва морфологичен модел или низ от думи, използвани в документа.

    Базирани на контекст правила – Базираните на контекста правила зависят от значението или контекста на думата в документа.

  • Системи, базирани на машинно обучение

    В системите, базирани на машинно обучение, статистическото моделиране се използва за откриване на обекти. При този подход се използва представяне на текстовия документ, базирано на функции. Можете да преодолеете няколко недостатъка на първите два подхода, тъй като моделът може да разпознае типове обекти въпреки леките вариации в изписването им.

  • Дълбоко обучение

    Методите за дълбоко обучение за NER използват силата на невронни мрежи като RNN и трансформатори, за да разберат дългосрочните текстови зависимости. Ключовата полза от използването на тези методи е, че те са много подходящи за широкомащабни NER задачи с изобилие от данни за обучение.

    Освен това, те могат да научат сложни модели и функции от самите данни, елиминирайки необходимостта от ръчно обучение. Но има една уловка. Тези методи изискват огромно количество изчислителна мощност за обучение и внедряване.

  • Хибридни методи

    Тези методи съчетават подходи като базирани на правила, статистически и машинно обучение за извличане на именувани обекти. Целта е да се комбинират силните страни на всеки метод, като се минимизират техните слабости. Най-добрата част от използването на хибридни методи е гъвкавостта, която получавате чрез обединяване на множество техники, чрез които можете да извличате обекти от различни източници на данни.
    Има обаче възможност тези методи да станат много по-сложни от методите с един подход, тъй като когато обедините няколко подхода, работният процес може да стане объркващ.

Използване на случаи за разпознаване на именуван обект (NER)?

Разкриване на многофункционалността на разпознаването на именувани обекти (NER):

  • Чатботове: NER помага на чатботове като ChatGPT на OpenAI при разбирането на потребителските заявки чрез идентифициране на ключови обекти.
  • Customer Support: Той организира обратната връзка с клиентите по имена на продукти, ускорявайки времето за реакция.
  • Финансите: NER извлича важни данни от финансови отчети, подпомагайки анализа на тенденциите и оценката на риска.
  • Здравеопазване: Той извлича важна информация от клиничните досиета, насърчавайки по-бързия анализ на данните.
  • HR: Той рационализира набирането на персонал, като обобщава профилите на кандидатите и насочва обратната връзка на служителите.
  • Доставчици на новини: NER категоризира съдържанието в подходяща информация и тенденции, ускорявайки докладването.
  • Двигатели за препоръки: Компании като Netflix използват NER, за да персонализират препоръки въз основа на поведението на потребителите.
  • Търсачки: Чрез категоризиране на уеб съдържание, NER подобрява точността на резултатите от търсенето.
  • Анализ на настроението: NER извлича споменаванията на марката от рецензиите, подхранвайки инструментите за анализ на настроенията.

Кой използва разпознаване на именувани обекти (NER)?

NER (Named Entity Recognition) като една от мощните техники за обработка на естествен език (NLP) си проправи път към различни индустрии и области. Ето няколко примера:

  • Търсачки: NER е основен компонент на съвременните търсачки като Google и Bing. Използва се за идентифициране и категоризиране на обекти от уеб страници и заявки за търсене, за да предостави по-подходящи резултати от търсенето. Например, с помощта на NER, търсачката може да направи разлика между „Apple“ компанията и „apple“ плода въз основа на контекста.
  • Чатботове: Чатботовете и AI асистентите могат да използват NER, за да разберат ключови обекти от потребителски заявки. По този начин чатботовете могат да предоставят по-точни отговори. Например, ако попитате „Намерете италиански ресторанти близо до Central Park“, чатботът ще разбере „италиански“ като тип кухня, „restaurants“ като място и „Central Park“ като местоположение.
  • Разследваща журналистика: Международният консорциум на разследващите журналисти (ICIJ), известна медийна организация, използва NER, за да анализира Panama Papers, масивно изтичане на 11.5 милиона финансови и правни документи. В този случай NER беше използван за автоматично идентифициране на хора, организации и местоположения в милиони неструктурирани документи, разкривайки скрити мрежи за офшорно укриване на данъци.
  • Биоинформатика: В областта на биоинформатиката NER се използва за извличане на ключови единици като гени, протеини, лекарства и болести от биомедицински научни статии и доклади от клинични изпитвания. Такива данни помагат за ускоряване на процеса на откриване на лекарства.
  • Мониторинг на социални медии: Марките в социалните медии използват NER, за да проследят общите показатели на своите рекламни кампании и как се справят техните конкуренти. Например, има авиокомпания, която използва NER, за да анализира туитове, в които се споменава тяхната марка. Той открива негативни коментари около обекти като „загубен багаж“ на определено летище, така че да могат да разрешат проблема възможно най-бързо.
  • Контекстна реклама: Рекламните платформи използват NER, за да извличат ключови обекти от уеб страниците, за да показват по-подходящи реклами заедно със съдържанието, което в крайна сметка подобрява насочването на рекламите и честотата на кликване. Например, ако NER открие „Хавай“, „хотели“ и „плажове“ в туристически блог, рекламната платформа ще покаже сделки за хавайски курорти, а не за общи хотелски вериги.
  • Набиране на персонал и проверка на автобиография: Можете да инструктирате NER да ви намери точните необходими умения и квалификации въз основа на набора от умения, опит и опит на кандидата. Например агенция за подбор на персонал може да използва NER, за да намери автоматично подходящи кандидати.

Приложения на NER

NER има няколко случая на употреба в много области, свързани с обработката на естествен език и създаването на набори от данни за обучение машинно обучение намлява дълбоко учене решения. Някои от приложенията на NER са:

  • Рационализирана поддръжка на клиенти

    Системата NER може лесно да забележи съответните оплаквания на клиенти, запитвания и обратна връзка въз основа на важна информация като имена на продукти, спецификации, местоположения на клонове и др. Жалбата или обратната връзка се класифицират подходящо и се насочват към правилния отдел чрез филтриране на приоритетни ключови думи.

  • Ефективни човешки ресурси

    NER помага на екипите по човешки ресурси да подобрят процеса на наемане и да намалят сроковете чрез бързо обобщаване на автобиографиите на кандидатите. Инструментите на NER могат да сканират автобиографията и да извлекат подходяща информация – име, възраст, адрес, квалификация, колеж и т.н.

    Освен това отделът по човешки ресурси може също да използва NER инструменти, за да рационализира вътрешните работни потоци, като филтрира оплакванията на служителите и ги препраща на съответните ръководители на отдели.

  • Опростена класификация на съдържанието

    Класификацията на съдържанието е огромна задача за доставчиците на новини. Класифицирането на съдържанието в различни категории улеснява откриването, придобиването на представа, идентифицирането на тенденциите и разбирането на темите. A Назован Разпознаване на обекти инструментът може да бъде полезен за доставчиците на новини. Той може да сканира много статии, да идентифицира приоритетни ключови думи и да извлича информация въз основа на лица, организация, местоположение и др.

  • Оптимизиране на търсачките

    Търсачката за оптимизация Нир помага за опростяване и подобряване на скоростта и уместността на резултатите от търсенето. Вместо да изпълнява заявката за търсене на хиляди статии, NER моделът може да изпълни заявката веднъж и да запази резултатите. Така, въз основа на таговете в заявката за търсене, статиите, свързани със заявката, могат бързо да бъдат избрани.

  • Препоръка за точно съдържание

    Няколко модерни приложения зависят от инструментите на NER, за да осигурят оптимизирано и персонализирано потребителско изживяване. Например Netflix предоставя персонализирани препоръки въз основа на хронологията на търсенията и прегледите на потребителя, използвайки разпознаване на именуван обект.

Разпознаването на именуван обект прави вашия машинно обучение моделите са по-ефективни и надеждни. Но вие се нуждаете от качествени набори от данни за обучение, за да могат вашите модели да работят на оптимално ниво и да постигнат планираните цели. Всичко, от което се нуждаете, е опитен сервизен партньор, който може да ви предостави качествени набори от данни, готови за използване. Ако случаят е такъв, Shaip е най-добрият ви залог досега. Обърнете се към нас за изчерпателни NER набори от данни, за да ви помогнем да разработите ефективни и усъвършенствани ML решения за вашите AI модели.

[Прочетете също: Какво е НЛП? Как работи, ползи, предизвикателства, примери

Как работи разпознаването на именуван обект?

Навлизането в сферата на разпознаването на именувани обекти (NER) разкрива систематично пътуване, включващо няколко фази:

  • токанизация

    Първоначално текстовите данни се разделят на по-малки единици, наречени токени, които могат да варират от думи до изречения. Например твърдението „Барак Обама беше президент на САЩ“ е сегментирано на токени като „Барак“, „Обама“, „беше“, „президентът“, „на“, „на“ и „ САЩ".

  • Откриване на обект

    Използвайки смесица от лингвистични насоки и статистически методологии, потенциалните наименувани субекти са фокусирани. Разпознаването на модели като главни букви в имена („Барак Обама“) или различни формати (като дати) е от решаващо значение на този етап.

  • Класификация на обекта

    След откриването субектите се сортират в предварително дефинирани категории като „Лице“, „Организация“ или „Местоположение“. Моделите за машинно обучение, подхранвани върху етикетирани набори от данни, често ръководят тази класификация. Тук „Барак Обама“ е маркиран като „Човек“, а „САЩ“ като „Местоположение“.

  • Контекстуална оценка

    Мощността на NER системите често се усилва чрез оценка на заобикалящия контекст. Например във фразата „Вашингтон стана свидетел на историческо събитие“ контекстът помага да се разпознае „Вашингтон“ като място, а не като име на човек.

  • Усъвършенстване след оценка

    След първоначалната идентификация и класификация може да последва уточняване след оценката, за да се усъвършенстват резултатите. Този етап може да се справи с неясноти, да обедини обекти с множество токени или да използва бази от знания за разширяване на данните за обекта.

Този очертан подход не само демистифицира същността на NER, но и оптимизира съдържанието за търсачките, подобрявайки видимостта на сложния процес, който NER въплъщава.

NER Предимства и предизвикателства?

Ползи:

  • Извличане на информация: NER идентифицира ключови данни, подпомагащи извличането на информация.
  • Организация на съдържанието: Помага за категоризиране на съдържание, полезно за бази данни и търсачки.
  • Подобрено потребителско изживяване: NER прецизира резултатите от търсенето и персонализира препоръките.
  • Проницателен анализ: Улеснява анализа на настроението и откриването на тенденции.
  • Автоматизиран работен поток: NER насърчава автоматизацията, спестявайки време и ресурси.

Ограничения/Предизвикателства:

  • Разрешаване на неяснота: Бори се с разграничаването на подобни същности.
  • Специфична за домейн адаптация: Ресурсно интензивни в различни области.
  • Езикова зависимост: Ефективността варира според езиците.
  • Недостиг на етикетирани данни: Необходими са големи набори от данни с етикети за обучение.
  • Работа с неструктурирани данни: Изисква напреднали техники.
  • Измерване на резултатите: Точната оценка е сложна.
  • Обработка в реално време: Балансирането на скоростта с точността е предизвикателство.

Бъдещето на NER

Въпреки че разпознаването на именувани обекти (NER) е добре установена област, има още много работа за вършене. Една обещаваща област, която можем да разгледаме, са техниките за задълбочено обучение, включително трансформатори и предварително обучени езикови модели, така че ефективността на NER може да бъде подобрена допълнително.

Друга вълнуваща идея е изграждането на персонализирани NER системи за различни професии, като лекари или адвокати. Тъй като различните индустрии имат свои собствени типове идентичност и модели, създаването на NER системи в тези специфични контексти може да осигури по-точни и подходящи резултати.

Освен това, многоезичният и междуезичният NER също е област, която се разраства по-бързо от всякога. С нарастващата глобализация на бизнеса трябва да разработим NER системи, които могат да обработват различни езикови структури и скриптове.

Тъй като NER системите стават по-сложни и се прилагат в критични области като здравеопазване и финанси, разбирането как тези модели правят своите прогнози е от решаващо значение. Разработването на техники за визуализиране и обяснение на мотивите зад резултатите от NER може да увеличи доверието в тези системи и да улесни тяхното отговорно внедряване.

Социален дял

Може да харесате още