Здесь вы можете скачать для ознакомления и проведения исследований русскоязычный корпус коротких текстов состоящий из 17,639,674 записей. Для тех, кто занимается задачей тонового анализа предлагаю ознакомиться с корпусами, автоматически распределенными на две группы: «заведомо положительные» (114,911 записей) и «заведомо отрицательные» (111,923 записей). Корпус собран на основе русскоязычных постов микроблогинговой площадки twitter.

Исследование

Меня зовут Юлия Рубцова и я аспирант института систем информатики им. А.П. Ершова СО РАН. В рамках диссертационного исследования я  занимаюсь разработкой методов автоматической тоновой классификации отзывов, представленных в социальных сетях, для задачи репутационного маркетинга. 

 

Существующие в открытом доступе тренировочные корпусы текстов на русском языке обладают следующими параметрами:

  • – корпусы отзывов с вручную проставленными потребителями оценками;
  • – узкотематические корпусы отзывов (на фильмы, на книги);
  • – корпусы общезначимых новостей (тексты, состоящие из нескольких абзацев).
  • – Существующие коллекции на русском языке, подготовленные для задачи автоматической классификации отзывов на два или три класса, представляют собой коллекции, объединенные одной тематикой, например, коллекция отзывов о фильмах с оценками пользователей (РОМИП 2011).

 

Таким образом, все доступные коллекции являются коллекциями отзывов, принадлежащими определенной предметной области, а не общетематическими коллекциями микроблогов. Микроблогинг сильно отличается от отзывов на специализированных площадках:  в то время как отзыв является обдуманным,  структурированным заключением автора о продукте или услуге, сообщения микроблога более спонтанны,  менее продуманы и ограничены по длине. В отзывах,  как правило,  преобладает конструктивная критика или похвала продукта,  сообщения микроблога более эмоциональны и менее конструктивны.  В отзывах на специализированных ресурсах можно выделить оценочные слова,  характерные для определенной предметной области.  Микроблоги являются общетематическими ресурсами,  поэтому при их анализе стоит более сложная задача выделения ярких оценочных терминов,  которые имеют положительную или отрицательную окраску во многих предметных областях,  а не в одной, исследуемой.

 

Так как на сегодняшний день существует очень мало публичных русскоязычных коллекций отзывов, которые можно было бы использовать для решения задачи классификации отзывов на три класса (положительные, отрицательные, нейтральные), и не обнаружено ни одной русскоязычной публичной коллекции постов микроблогов, было принято решение подготовить собственный корпус текстов. Который и выкладываю для всеобщего пользования. 

О корпусе

В качестве источника текстов была выбрана платформа микроблогинга Twitter Современные поисковые системы и имеющиеся в открытом доступе инструменты по сбору текстовых отзывов не позволяют собирать актуальные отзывы и оперативно работать с данными. В связи с этим на основе программного интерефейса API twitter  был разработан программный инструмент для извлечения отзывов об интересующих товарах, услугах,  событиях,  персонах из микроблоггинг-платформы twitter,  который позволяет учитывать время публикации сообщения и авторитетность автора сообщения. Этот инструмент использовался для сбора неразмеченного корпуса. В корпусе содержится более 15 миллионов записей за время с конца ноября 2013 года до конца февраля 2014 года.

 

Автоматическая классификация отзывов (и разметка корпуса) осуществляется по методу, предложенному Jonathon Read  [2005]. Для разметки на два класса (положительные и отрицательные), тестовая выборка была отфильтрована,  согласно следующим критериям:

  • – Удалялись все твиты,  содержащие одновременно и положительные и отрицательные эмоции;
  • – Как выяснилось, API twitter  отдает в результатах выдачи копии twitter- постов.  В связи с этим необходимо было удалять одинаковые посты из тестовой выборки;
  • – Удалялись малоинформативные твиты, длина которых составляла менее 40 символов.

 

Несмотря на ограничения API twitter, был собран корпус русскоязычных twitter-постов, автоматически размеченных на два класса (положительные и отрицательные). Корпус нейтральных постов собирается отдельно. Каждый текст в корпусе имеет следующие атрибуты:

  • – дата публикации;
  • – имя автора;
  • – текст твита;
  • – класс, к которому принадлежит текст (положительный, отрицательный, нейтральный);
  • – количество добавлений сообщения в избранное;
  • – количество ретвитов (количество копирований этого сообщения другими пользователями);
  • – количество друзей пользователя;
  • – количество пользователей, у которых данный юзер в друзьях (количество фоловеров);
  • – количество листов, в которых состоит пользователь.

 

В результате был получен тренировочный корпус, состоящий из 114,911 положительных, 111,923 отрицательных записей.

Любое использоание данных должно непротиворечить the Twitter Developer Agreement and Developer Policy.

Пояснение к полям базы данных

База данных состоит из 12 столбцов:

  • – id: уникальный номер сообщения в системе twitter;
  • – tdate: дата публикации сообщения (твита);
  • – tmane: имя пользователя, опубликовавшего сообщение;
  • – ttext:  текст сообщения (твита);
  • – ttype: поле в котором в дальнейшем будет указано к кому классу относится твит (положительный, отрицательный, нейтральный);
  • – trep: количество реплаев к данному сообщению. В настоящий момент API твиттера не отдает эту информацию;
  • – tfav: число сколько раз данное сообщение было добавлено в избранное другими пользователями;
  • – tstcount: число всех сообщений пользователя в сети twitter;
  • – tfol: количество фоловеров пользователя (тех людей, которые читают пользователя);
  • – tfrien: количество друзей пользователя (те люди, которых читает пользователь);
  • – listcount: количество листов-подписок в которые добавлен твиттер-пользователь.

Публикации

Рубцова Ю. В. Разработка и исследование предметно независимого классификатора текстов по тональности //Труды СПИИРАН. – 2014. – Т. 5. – №. 36. – С. 59-77.
PDF

Рубцова Ю.В. Методы автоматического извлечения терминов в динамически обновляемых коллекциях для построения словаря эмоциональной лексики на основе микроблоговой платформы Twitter // Доклады Томского государственного университета систем управления и радиоэлектроники. 2014, № 3 (33). –С.140-144.
PDF

Ю. В. Рубцова. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), –С.72-78
PDF

Rubtsova Yuliya. Automatic Term Extraction for Sentiment Classification of Dynamically Updated Text Collections into Three Classes // Knowledge Engineering and the Semantic Web, pp140-149, 2014, Springer
PDF

Рубцова Ю.В. Автоматическое извлечение терминов для задачи тоновой классификации в постоянно обновляющихся текстовых коллекциях // Труды 14-й национальной конференции по искусственному интеллекту с международным участием КИИ-2014. –Казань: РИЦ «Школа», 2014. –Т.1. –С.144-152. PDF

Ю.В. Рубцова. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL’2013, Ярославль, Россия, 14-17 октября 2013 г. – Ярославль: ЯрГУ, 2013. –С. 269-275. PDF

Рубцова Ю. Автоматическое построение и анализ корпуса коротких текстов (постов микроблогов) для задачи разработки и тренировки тонового классификатора // Сборник трудов конференции «Инженерия знаний и технологии семантического веба – 2012». – СПб.: НИУ ИТМО, 2012. – С. 109–115. PDF

Есть вопросы, предложения, советы – пишите!

Top