Наборите от данни за естествен език (NLP) са гръбнакът на много проекти за обработка на естествен език, предлагайки гъвкавост за широк спектър от задачи, като например класификация на текст, анализ на настроенията и отговаряне на въпроси. Корпусът за авторство на блогове, например, съдържа над 681,000 20,000 публикации в блогове от близо XNUMX XNUMX блогъри, което го прави богат ресурс за изучаване на стилове на писане, идентифициране на автори и други.
За тези, които се интересуват от академични изследвания, наборът от данни за научни статии arXiv предоставя достъп до огромна колекция от научни статии в множество дисциплини, поддържайки усъвършенствани задачи по естествен език, като анализ на цитати и класификация на документи. Наборът от данни на Федералния център за данни за обществени поръчки е друг ценен ресурс, предлагащ подробна информация за федералните договори – идеален за проекти, включващи правителствени данни и разпознаване на организации.
Тези NLP набори от данни се използват широко за обучение и оценка на модели за машинно обучение, помагайки на изследователи и разработчици да подобрят производителността на своите системи при различни NLP задачи. Независимо дали работите с публикации в блогове, научни статии или правителствени данни, тези набори от данни осигуряват основата за надеждни и гъвкави NLP приложения.
Какво е НЛП?
NLP (Обработка на естествен език) помага на компютрите да разберат човешкия език. Това е като да научите компютрите да четат, разбират и отговарят на текст и реч по начина, по който хората го правят.
Какво може да направи НЛП?
- Превърнете разхвърляния текст в организирани данни
- Разберете дали коментарите са положителни или отрицателни
- Превеждайте между езици
- Създавайте резюмета на дълги текстове
- И още много!
- Първи стъпки с НЛП:
За да изградите добри НЛП системи, имате нужда от много примери, за да ги обучите – точно както хората учат по-добре с повече практика. Добрата новина е, че има много безплатни ресурси, където можете да намерите тези примери: Прегърнато лице, Kaggle намлява GitHub. Наборите от данни от тези платформи са лесно достъпни, което ускорява разработването на NLP проекти.
Размер и растеж на пазара на НЛП:
Към 2023 г. пазарът на обработка на естествен език (NLP) се оценява на около 26 милиарда долара. Очаква се да нарасне значително, с комбиниран годишен темп на растеж (CAGR) от около 30% от 2023 г. до 2030 г. Този растеж се дължи на нарастващото търсене на NLP приложения в индустрии като здравеопазване, финанси и обслужване на клиенти.
Как да изберете добър NLP набор от данни, вземете предвид следните фактори:
- уместност: Уверете се, че наборът от данни съответства на вашата конкретна задача или домейн.
- Размер: По-големите набори от данни обикновено подобряват производителността на модела, но балансират размера и качеството.
- разнообразие: Търсете набори от данни с разнообразни езикови стилове и контексти, за да подобрите устойчивостта на модела.
- Качество: Проверете за добре етикетирани и точни данни, за да избегнете въвеждането на грешки.
- Достъпност: Уверете се, че наборът от данни е достъпен за използване и помислете за всички лицензионни ограничения.
- Предварителна обработка: Определете дали наборът от данни изисква значително почистване или предварителна обработка.
- Подкрепа от Общността: Популярните набори от данни често имат повече ресурси и подкрепа от общността, което може да бъде полезно.
Чрез оценка на тези фактори можете да изберете набор от данни, който най-добре отговаря на нуждите на вашия проект. Изборът на правилните набори от данни е от съществено значение за постигане на оптимални резултати в NLP проекти, тъй като те пряко влияят върху производителността на модела и ефективността на обучението.
Топ 33, които трябва да видите отворени набори от данни за НЛП
Общи
Спамбаза на UCI (Връзка)
Spambase, създадена в Hewlett-Packard Labs, има колекция от спам имейли от потребителите, целяща да разработи персонализиран спам филтър. Той има повече от 4600 наблюдения от имейл съобщения, от които близо 1820 са спам.
Набор от данни на Enron (Връзка)
Наборът от данни на Enron разполага с огромна колекция от анонимизирани „реални“ имейли, достъпни за обществеността за обучение на техните модели за машинно обучение. Той се гордее с повече от половин милион имейла от над 150 потребители, предимно висше ръководство на Enron. Този набор от данни е достъпен за използване както в структуриран, така и в неструктуриран формат. За да се подобрят неструктурираните данни, трябва да се прилагат техники за обработка на данни.
Набор от данни на Recommender Systems (Връзка)
Наборът от данни на Recommender System е огромна колекция от различни набори от данни, съдържащи различни функции, като например,
- Мнения за продукта
- Звездни оценки
- Проследяване на фитнес
- Данни за песента
- Социални мрежи
- Показване на времето
- Взаимодействия потребител/артикул
- GPS данни
Пен Трийбанк (Връзка)
Този корпус от Wall Street Journal е популярен за тестване на модели за етикетиране на последователности.
NLTK (Връзка)
Тази библиотека на Python предоставя достъп до над 100 корпуса и лексикални ресурса за НЛП. Тя включва и книгата NLTK, обучителен курс за използване на библиотеката. NLTK включва достъп до WordNet, голяма лексикална база данни на английски език, където думи като съществителни, глаголи, прилагателни и наречия са групирани в синсетове въз основа на споделени значения. NLTK предоставя и анотиран списък с корпуси и лексикални ресурси за НЛП изследвания.
Универсални зависимости (Връзка)
UD предоставя последователен начин за анотиране на граматиката, с ресурси на над 100 езика, 200 дървета и поддръжка от над 300 членове на общността.
Набори от данни за анализ на настроението
Речници за филми и финанси (Връзка)
Наборът от данни за речници за филми и финанси предоставя специфични за домейни речници за положителна или отрицателна полярност в пълнежите за финанси и ревютата на филми. Тези речници са извлечени от попълнения на IMDb и US Form-8.Чувство 140 (Връзка)
Sentiment 140 има повече от 160,000 6 туита с различни емотикони, категоризирани в XNUMX различни полета: дата на туит, полярност, текст, потребителско име, ID и заявка. Този набор от данни ви дава възможност да откриете настроенията на марка, продукт или дори тема въз основа на дейност в Twitter. Тъй като този набор от данни се създава автоматично, за разлика от други анотирани от хора туитове, той класифицира туитове с положителни емоции и отрицателни емоции като неблагоприятни.
Набор от данни за многодомейн настроения (Връзка)
Този набор от данни за настроения в няколко домейна е хранилище на прегледи на Amazon за различни продукти. Някои продуктови категории, като например книги, имат хиляди отзиви, докато други имат само няколкостотин отзива. Освен това рецензиите със звезди могат да бъдат конвертирани в двоични етикети.
Standford Sentiment TreeBank (Връзка)
Този NLP набор от данни от Rotten Tomatoes включва по-дълги фрази и по-подробни текстови примери.
Авторският корпус на блога (Връзка)
Тази колекция съдържа публикации в блогове с близо 1.4 милиона думи, всеки блог е отделен набор от данни.
OpinRank набор от данни (Връзка)
300,000 XNUMX отзива от Edmunds и TripAdvisor, организирани по модел кола или туристическа дестинация и хотел.
Текстов набор от данни
Корпусът на Wiki QA (Връзка)
Създаден, за да подпомогне изследването на въпроси и отговори с отворен домейн, WiKi QA Corpus е един от най-обширните публично достъпни набори от данни. Компилиран от регистрационните файлове на заявките на търсачката Bing, той идва с двойки въпроси и отговори. Има повече от 3000 въпроса и 1500 етикетирани изречения с отговор.
Набор от данни за доклади за правни случаи (Връзка)
Наборът от данни на Legal Case Reports съдържа колекция от 4000 правни казуса и може да се използва за обучение за автоматично обобщаване на текстове и анализ на цитати. Използват се всеки документ, крилати фрази, класове за цитиране, крилати фрази за цитиране и други.
Опасност (Връзка)
Наборът от данни за Jeopardy е колекция от повече от 200,000 XNUMX въпроса, включени в популярното телевизионно шоу с викторина, събрано от потребител на Reddit. Всяка точка от данни се класифицира по дата на излъчване, номер на епизод, стойност, кръг и въпрос/отговор.
20 дискусионни групи (Връзка)
Колекция от 20,000 20 документа обхваща XNUMX дискусионни групи и теми, описващи подробно теми от религията до популярния спорт.
Набор от данни на Ройтерс (Връзка)
Появявайки се за първи път през 1987 г., този набор от данни е етикетиран, индексиран и компилиран за целите на машинното обучение.
ArXiv (Връзка)
Този значителен набор от данни от 270 GB включва пълния текст на всички научни статии на arXiv.
Паралелен корпус на процедурите на Европейския парламент (Връзка)
Двойките изречения от парламентарните процедури включват записи от 21 европейски езика, включващи някои по-рядко срещани езици за корпуси за машинно обучение.
Показател за милиарди думи (Връзка)
Извлечен от WMT 2011 News Crawl, този набор от данни за езиково моделиране включва почти един милиард думи за тестване на иновативни техники за езиково моделиране.
Набори от данни за аудио реч
Говорим корпус на Уикипедия (Връзка)
Този набор от данни е идеален за всеки, който иска да надхвърли английския език. Този набор от данни съдържа колекция от статии, говорени на холандски, немски и английски. Има разнообразна гама от теми и набори от високоговорители, които работят в стотици часове.
2000 HUB5 английски (Връзка)
Английският набор от данни 2000 HUB5 съдържа 40 преписа на телефонни разговори на английски език. Данните са предоставени от Националния институт за стандарти и технологии, а основният им фокус е върху разпознаването на разговорна реч и превръщането на речта в текст.
LibriSpeech (Връзка)
Наборът от данни LibriSpeech е колекция от почти 1000 часа английска реч, взета и правилно сегментирана по теми в глави от аудио книги, което го прави перфектен инструмент за обработка на естествен език.
Безплатен набор от данни за устни цифри (Връзка)
Този набор от данни за НЛП включва повече от 1,500 записа на произнесени цифри на английски език.
Набор от речеви данни на M-AI Labs (Връзка)
Наборът от данни предлага близо 1,000 часа аудио с транскрипции, обхващащи множество езици и категоризирани по мъжки, женски и смесени гласове.
База данни за шумна реч (връзка)
Този набор от данни включва паралелни шумни и чисти записи на реч, предназначени за разработка на софтуер за подобряване на речта, но също така полезни за обучение по реч при трудни условия.
Набори от данни за отзиви
Отзиви за Yelp (Връзка)
Наборът от данни на Yelp има огромна колекция от около 8.5 милиона рецензии на над 160,000 200,000 фирми, техните рецензии и потребителски данни. Отзивите могат да се използват за обучение на вашите модели за анализ на настроението. Освен това този набор от данни съдържа повече от XNUMX XNUMX снимки, покриващи осем градски местоположения.
Рецензии на IMDB (Връзка)
Рецензиите в IMDB са сред най-популярните набори от данни, съдържащи информация за актьорския състав, рейтинги, описание и жанр за повече от 50 хиляди филма. Този набор от данни може да се използва за тестване и обучение на вашите модели за машинно обучение.
Набор от данни за отзиви и оценки на Amazon (Връзка)
Наборът от данни за преглед и оценка на Amazon съдържа ценна колекция от метаданни и прегледи на различни продукти от Amazon, събрани от 1996 до 2014 г. – около 142.8 милиона записа. Метаданните включват цената, описанието на продукта, марката, категорията и други, докато рецензиите имат качество на текста, полезността на текста, оценки и други.
Набори от данни с въпроси и отговори
Набор от данни за въпроси и отговори на Станфорд (SQuAD) (Връзка)
Този набор от данни за четене с разбиране съдържа 100,000 50,000 въпроса, на които може да се отговори, и XNUMX XNUMX такива, на които няма отговор, като всички те са създадени от краудработници на Wikipedia.
Естествени въпроси (Връзка)
Този комплект за обучение съдържа над 300,000 7,800 примера за обучение, 7,800 XNUMX примера за разработка и XNUMX XNUMX тестови примера, всеки със заявка в Google и съответстваща страница в Wikipedia.
TriviaQA (Връзка)
Този предизвикателен набор от въпроси има 950,000 XNUMX QA двойки, включително проверени от хора и машинно генерирани подгрупи.
CLEVR (композиционен език и елементарно визуално разсъждение) (Връзка)
Този набор от данни с визуални отговори на въпроси включва 3D изобразени обекти и хиляди въпроси с подробности за визуалната сцена.
И така, върху кой набор от данни сте избрали да обучите своя модел за машинно обучение?
Докато тръгваме, ще ви оставим с a про-съвет.
Уверете се, че сте прегледали внимателно файла README, преди да изберете NLP набор от данни за вашите нужди. Наборът от данни ще съдържа цялата необходима информация, която може да ви е необходима, като съдържанието на набора от данни, различните параметри, по които са категоризирани данните, и вероятните случаи на използване на набора от данни.
Независимо от моделите, които създавате, има вълнуваща перспектива за по-тясно интегриране на нашите машини с живота ни. С НЛП възможностите за бизнес, филми, разпознаване на реч, финанси и други се увеличават многократно.

Този набор от данни е идеален за всеки, който иска да надхвърли английския език. Този набор от данни съдържа колекция от статии, говорени на холандски, немски и английски. Има разнообразна гама от теми и набори от високоговорители, които работят в стотици часове.


