Обработката на естествен език е жизненоважна част от бронята за машинно обучение. Въпреки това, той се нуждае от огромно количество данни и обучение, за да може моделът да работи добре. Един от съществените проблеми с НЛП е липсата на набори от данни за обучение, които могат да покрият обширни области на интерес в рамките на домейна.
Ако започвате в тази обширна област, може да ви се стори предизвикателство и практически излишно да създавате своите набори от данни. Особено когато има налични качествени NLP набори от данни за обучение на вашите модели за машинно обучение въз основа на тяхната цел.
Предвижда се пазарът на НЛП да нарасне с CAGR от 11.7% през 2018 г. и 2026 г., за да достигне $ 28.6 милиарда от 2026. Благодарение на нарастващото търсене на НЛП и машинно обучение, вече е възможно да се сдобиете с качествени набори от данни, обслужващи анализ на настроенията, рецензии, анализ на въпроси и отговори и набори от данни за анализ на речта.
NLP наборите от данни за машинно обучение, на които можете да се доверите
Тъй като безброй набори от данни – фокусирани върху различни нужди – се пускат почти всеки ден, достъпът до качествени, надеждни и най-добри набори от данни може да бъде предизвикателство. Тук улеснихме работата за вас, тъй като ви представихме подбрани набори от данни, разделени въз основа на категориите, които обслужват.
Общи
Спамбаза на UCI (Връзка)
Spambase, създадена в Hewlett-Packard Labs, има колекция от спам имейли от потребителите, целяща да разработи персонализиран спам филтър. Той има повече от 4600 наблюдения от имейл съобщения, от които близо 1820 са спам.
Набор от данни на Enron (Връзка)
Наборът от данни на Enron има огромна колекция от анонимизирани „истински“ имейли, достъпни за обществеността, за да обучат техните модели за машинно обучение. Той може да се похвали с повече от половин милион имейли от над 150 потребители, предимно от висшето ръководство на Enron. Този набор от данни е достъпен за използване както в структурирани, така и в неструктурирани формати. За да оформите неструктурираните данни, трябва да приложите техники за обработка на данни.
Набор от данни на Recommender Systems (Връзка)
Наборът от данни на Recommender System е огромна колекция от различни набори от данни, съдържащи различни функции, като например,
- Мнения за продукта
- Звездни оценки
- Проследяване на фитнес
- Данни за песента
- Социални мрежи
- Показване на времето
- Взаимодействия потребител/артикул
- GPS данни
Пен Трийбанк (Връзка)
Този корпус от Wall Street Journal е популярен за тестване на модели за етикетиране на последователности.
NLTK (Връзка)
Тази библиотека на Python осигурява достъп до над 100 корпуса и лексикални ресурси за НЛП. Той също така включва книгата NLTK, курс за обучение за използване на библиотеката.
Универсални зависимости (Връзка)
UD предоставя последователен начин за анотиране на граматиката, с ресурси на над 100 езика, 200 дървета и поддръжка от над 300 членове на общността.
Анализ на чувството
Речници за филми и финанси (Връзка)
Наборът от данни за речници за филми и финанси предоставя специфични за домейни речници за положителна или отрицателна полярност в пълнежите за финанси и ревютата на филми. Тези речници са извлечени от попълнения на IMDb и US Form-8.Чувство 140 (Връзка)
Sentiment 140 има повече от 160,000 6 туита с различни емотикони, категоризирани в XNUMX различни полета: дата на туит, полярност, текст, потребителско име, ID и заявка. Този набор от данни ви дава възможност да откриете настроенията на марка, продукт или дори тема въз основа на дейност в Twitter. Тъй като този набор от данни се създава автоматично, за разлика от други анотирани от хора туитове, той класифицира туитове с положителни емоции и отрицателни емоции като неблагоприятни.
Набор от данни за многодомейн настроения (Връзка)
Този набор от данни за настроения в няколко домейна е хранилище на прегледи на Amazon за различни продукти. Някои продуктови категории, като например книги, имат хиляди отзиви, докато други имат само няколкостотин отзива. Освен това рецензиите със звезди могат да бъдат конвертирани в двоични етикети.
Standford Sentiment TreeBank (Връзка)
Този NLP набор от данни от Rotten Tomatoes включва по-дълги фрази и по-подробни текстови примери.
Авторският корпус на блога (Връзка)
Тази колекция съдържа публикации в блогове с близо 1.4 милиона думи, всеки блог е отделен набор от данни.
OpinRank набор от данни (Връзка)
300,000 XNUMX отзива от Edmunds и TripAdvisor, организирани по модел кола или туристическа дестинация и хотел.
Текст
-
Корпусът на Wiki QA (Връзка)
Създаден, за да подпомогне изследването на въпроси и отговори с отворен домейн, WiKi QA Corpus е един от най-обширните публично достъпни набори от данни. Компилиран от регистрационните файлове на заявките на търсачката Bing, той идва с двойки въпроси и отговори. Има повече от 3000 въпроса и 1500 етикетирани изречения с отговор.
-
Набор от данни за доклади за правни случаи (Връзка)
Наборът от данни на Legal Case Reports съдържа колекция от 4000 правни казуса и може да се използва за обучение за автоматично обобщаване на текстове и анализ на цитати. Използват се всеки документ, крилати фрази, класове за цитиране, крилати фрази за цитиране и други.
-
Опасност (Връзка)
Наборът от данни за Jeopardy е колекция от повече от 200,000 XNUMX въпроса, включени в популярното телевизионно шоу с викторина, събрано от потребител на Reddit. Всяка точка от данни се класифицира по дата на излъчване, номер на епизод, стойност, кръг и въпрос/отговор.
-
20 дискусионни групи (Връзка)
Колекция от 20,000 20 документа обхваща XNUMX дискусионни групи и теми, описващи подробно теми от религията до популярния спорт.
-
Набор от данни на Ройтерс (Връзка)
Появявайки се за първи път през 1987 г., този набор от данни е етикетиран, индексиран и компилиран за целите на машинното обучение.
-
ArXiv (Връзка)
Този значителен набор от данни от 270 GB включва пълния текст на всички научни статии на arXiv.
-
Паралелен корпус на процедурите на Европейския парламент (Връзка)
Двойките изречения от парламентарните процедури включват записи от 21 европейски езика, включващи някои по-рядко срещани езици за корпуси за машинно обучение.
-
Показател за милиарди думи (Връзка)
Извлечен от WMT 2011 News Crawl, този набор от данни за езиково моделиране включва почти един милиард думи за тестване на иновативни техники за езиково моделиране.
Аудио реч
-
Говорим корпус на Уикипедия (Връзка)
Този набор от данни е идеален за всеки, който иска да надхвърли английския език. Този набор от данни съдържа колекция от статии, говорени на холандски, немски и английски. Има разнообразна гама от теми и набори от високоговорители, които работят в стотици часове.
-
2000 HUB5 английски (Връзка)
Английският набор от данни 2000 HUB5 съдържа 40 преписа на телефонни разговори на английски език. Данните са предоставени от Националния институт за стандарти и технологии, а основният им фокус е върху разпознаването на разговорна реч и превръщането на речта в текст.
-
LibriSpeech (Връзка)
Наборът от данни LibriSpeech е колекция от почти 1000 часа английска реч, взета и правилно сегментирана по теми в глави от аудио книги, което го прави перфектен инструмент за обработка на естествен език.
-
Безплатен набор от данни за устни цифри (Връзка)
Този набор от данни за НЛП включва повече от 1,500 записа на произнесени цифри на английски език.
-
Набор от речеви данни на M-AI Labs (Връзка)
Наборът от данни предлага близо 1,000 часа аудио с транскрипции, обхващащи множество езици и категоризирани по мъжки, женски и смесени гласове.
-
База данни за шумна реч (връзка)
Този набор от данни включва паралелни шумни и чисти записи на реч, предназначени за разработка на софтуер за подобряване на речта, но също така полезни за обучение по реч при трудни условия.
Отзиви
-
Отзиви за Yelp (Връзка)
Наборът от данни на Yelp има огромна колекция от около 8.5 милиона рецензии на над 160,000 200,000 фирми, техните рецензии и потребителски данни. Отзивите могат да се използват за обучение на вашите модели за анализ на настроението. Освен това този набор от данни съдържа повече от XNUMX XNUMX снимки, покриващи осем градски местоположения.
-
Рецензии на IMDB (Връзка)
Рецензиите в IMDB са сред най-популярните набори от данни, съдържащи информация за актьорския състав, рейтинги, описание и жанр за повече от 50 хиляди филма. Този набор от данни може да се използва за тестване и обучение на вашите модели за машинно обучение.
-
Набор от данни за отзиви и оценки на Amazon (Връзка)
Наборът от данни за преглед и оценка на Amazon съдържа ценна колекция от метаданни и прегледи на различни продукти от Amazon, събрани от 1996 до 2014 г. – около 142.8 милиона записа. Метаданните включват цената, описанието на продукта, марката, категорията и други, докато рецензиите имат качество на текста, полезността на текста, оценки и други.
Въпрос и отговор
-
Набор от данни за въпроси и отговори на Станфорд (SQuAD) (Връзка)
Този набор от данни за четене с разбиране съдържа 100,000 50,000 въпроса, на които може да се отговори, и XNUMX XNUMX такива, на които няма отговор, като всички те са създадени от краудработници на Wikipedia.
-
Естествени въпроси (Връзка)
Този комплект за обучение съдържа над 300,000 7,800 примера за обучение, 7,800 XNUMX примера за разработка и XNUMX XNUMX тестови примера, всеки със заявка в Google и съответстваща страница в Wikipedia.
-
TriviaQA (Връзка)
Този предизвикателен набор от въпроси има 950,000 XNUMX QA двойки, включително проверени от хора и машинно генерирани подгрупи.
-
CLEVR (композиционен език и елементарно визуално разсъждение) (Връзка)
Този набор от данни с визуални отговори на въпроси включва 3D изобразени обекти и хиляди въпроси с подробности за визуалната сцена.
И така, върху кой набор от данни сте избрали да обучите своя модел за машинно обучение?
Докато тръгваме, ще ви оставим с a про-съвет.
Уверете се, че сте прегледали внимателно файла README, преди да изберете NLP набор от данни за вашите нужди. Наборът от данни ще съдържа цялата необходима информация, която може да ви е необходима, като съдържанието на набора от данни, различните параметри, по които са категоризирани данните, и вероятните случаи на използване на набора от данни.
Независимо от моделите, които създавате, има вълнуваща перспектива за по-тясно интегриране на нашите машини с живота ни. С НЛП възможностите за бизнес, филми, разпознаване на реч, финанси и други се увеличават многократно.