ПРОЕКТУВАННЯ АВТОМАТИЧНОЇ СИСТЕМИ ЗБОРУ ТА АНАЛІЗУ ВІДГУКІВ ТА ДУМОК

Автор(и)

  • Андрій Кравченко ДВНЗ «ПДТУ», Україна
  • Злата Воротнікова ДВНЗ «ПДТУ», Україна

DOI:

https://doi.org/10.31498/2522-9990232020240877

Ключові слова:

аналіз електронних документів, тональність тексту, автоматичний аналіз текстів, емоційне забарвлення, форма Бекуса–Наура

Анотація

У даній статті розглянуто основні проблеми обробки природної мови, основні підходи до необхідності структурування та систематизації даних, аналізу емоційного забарвлення тексту та можливості подальшого використання, отриманих результатів. Проведено аналіз ефективності методів класифікації. Спроектовано систему аналізу відгуків, побудована модель класифікації тональності. Завдання обробки тексту зводяться до задач машинного навчання, де потрібно сформувати вектор ознак і створити навчальну вибірку. Потім класифікатор навчається за вибіркою і перевіряється якість класифікації на колекції текстів певної предметної області. В якості базових класифікаційний ознак для методів машинного навчання розглядаються всі слова документа за винятком службових частин мови, числівників і дат, а також прості іменні групи. Для збільшення кількості ознак пропонують лінгвістичний підхід, розширюючи список атрибутів за рахунок синонімів і гіпонімів з використанням словників оціночної лексики. Програмно реалізовано ключовий модуль до запропонованого підходу за допомогою мови програмування Python. В процесі тестування використовувалася бібліотека scikit-learn, що реалізує множину алгоритмів машинного навчання в тому числі SVM і k-найближчих сусідів. Також була використана бібліотека для обробки текстів на природних мовах NLTK, в якій реалізований наївний байесовий класифікатор. Для тестування алгоритмів було використано метод перехресної перевірки. Основним результатом роботи є те, що під час її написання було запропоновано спосіб кодування послідовностей ключів для побудови стислого змісти відгуку. Наукова новизна роботи визначається ґрунтовним дослідженням можливостей використання різних видів кодування шаблонів для семантичних кортежем. Практична значущість роботи полягає у детальній розробці алгоритму аналізу тональностей універсальних текстів.

Біографії авторів

Андрій Кравченко , ДВНЗ «ПДТУ»

магістрант групи КМ-18-М

Злата Воротнікова , ДВНЗ «ПДТУ»

к.т.н., доцент кафедри «Автоатизація та компютерні технології»

Посилання

Iacob C. Online reviews as first class artifacts in mobile app development / C. Iacob, R. Harrison, S. Faily // Mobile Computing, Applications, and Services.— Springer, 2013.— С.47— 53.

Pang B. Opinion mining and sentiment analysis / B. Pang, L. Lee // Foundations and trends in information retrieval.— 2008.— Т.2,1-2.— С.1—135.

Moghaddam S. Beyond Sentiment Analysis: Mining Defects and Improvements from Customer Feedback / S. Moghaddam // Advances in Information Retrieval.— Springer, 2015.— С.400— 410.

Gupta N.K. Extracting descriptions of problems with product and services from twitter data / N.K. Gupta // Proceedings of the 3rd Workshop on Social Web Search and Mining (SWSM2011). Beijing, China.— 2011.

Domingos P. On the optimality of the simple Bayesian classifier under zero-one loss / P. Domingos, M. Pazzani // Machine Learning, 1997. – No. 29. – Р. 103- 137.

Воронцов К.В. Лекции по методу опорных векторов. Курс лекций / К.В. Воронцов. – М.: МГУ, 2007. – 18 с.

Larose D.T. Discovering knowledge in data: an introduction to data mining / D.T. Larose. – New Jersey: John Wiley & Sons, Inc., 2005. – 240 р.

##submission.downloads##

Опубліковано

2021-01-01

Номер

Розділ

Інформаційні технології