Презентація_Іванов.pptx (original) (raw)

Важливою проблемою, що постає перед контент-аналітиками та іншими дослідниками, які працюють із неструктурованою текстовою інформацією (природною мовою) є визначення тональності аналізованих текстів. Під визначенням тональності ми маємо на увазі категоризацію текстів або їх фрагментів як таких, що містять у собі позитивні або негативні оцінки, інші вираження ставлення комунікатора до явищ або об’єктів, згадуваних у тексті [T. Wilson, J. Wiebe,P. Hoffmann, 2005]. Дана проблема наразі актуалізується у зв’язку з тим, що по-перше, зі зростанням поширення і проникнення Інтернету зростає обсяг текстових масивів, які необхідно аналізувати, а по-друге, зростає важливість дослідження користувацького контенту (наприклад, на сайтах соціальних мереж) як одного із факторів впливу на громадську думку та її вираження [J. Murphy, M. W. Link, J. H. Childs, C. L. Tesfaye, E. Dean, M. Stern, J. Pasek, J. Cohen, M. Callegaro,P. Harwood, 2014, B. Pang,L. Lee, 2008]. Можна виділити три загальних підходи до кодування тональності в текстах: • Кодування вручну спеціально навченими кодувальниками. • Використання словників тональності • Машинне навчання. Хоча дослідження показують, що кодування вручну залишається найваліднішим та найнадійнішим способом категоризації текстів [M. R. Steenbergen,G. Marks, 2007], слід мати на увазі, що воно таким є лише за умови дотримання строгої процедури кодування, що, зокрема, включає розробку чіткої та однозначної інструкції надійності [K. Krippendorff, 2004]. У випадку визначення тональності складання однозначної інструкції є досить складною задачею, оскільки тексти можуть містити метафоричні, саркастичні висловлювання, тощо. Проблема кодування метафор, гумору та сарказму є дотичною і також на сьогодні не вирішеною проблемою. Своєрідним «заспокоєнням», однак, можна вважати те, що у ситуаціях природного мовлення, так само, далеко не всі реципієнти розуміють гумор чи сарказм комунікатора. Іншим важливим обмеженням даного підходу є його ресурсовитратність, що робить кодування вручну не придатним для аналізу великих обсягів текстів та необхідним пошук способів автоматизації. Другий підхід виходить із припущення, що можна створити аналітичні словники тональності — набори слів, які будуть маркерами позитиву або негативу. Таких словників наразі створено досить багато, у т.ч. для української та російської мов. Їх використання, однак, породжує низку проблем. По-перше, чи можна вважати, що кожне окреме слово у відриві від контексту завжди матиме позитивне або негативне забарвлення? Для вирішення цієї проблеми використовується такий підхід: група кодувальників кодує масив текстів, маркуючи кожне змістовне слово в них за певною шкалою тональності (напр., від -10 до +10). Після чого ми отримуємо словник із середніми значеннями показників, тобто слова не однозначно маркують текст як позитивний або негативний, а з певною ймовірністю. По-друге, залишається проблема співвіднесення ставлення та об’єкта цього ставлення. Якщо в одному тексті зустрічаються негативні висловлювання щодо об’єкта А та позитивні — щодо об’єкта Б, то при використанні подокументного аналізу ми не зможемо автоматично визначити ставлення до кожного із цих об’єктів. Тому рекомендується використовувати аналіз на рівні окремих речень. Трапляється, однак, що в одному реченні висловлені протилежні ставлення до різних об’єктів. Для подолання таких неоднозначностей слід використовувати автоматичний синтаксичний аналіз, що дозволяє пов’язувати слова в одному реченні за їх граматичними формами. Третій підхід є найбільш перспективним з точки зору врахування різноманітних факторів, які можуть впливати на «позитивність» або «негативність». Суть його у тому, що створюється навчальний масив, який кодується вручну, після чого до результатів кодування застосовується класифікаційний алгоритм, який дозволяє створити модель тональності текстів. Нам видається, що перспективними є два шляхи розвитку цього підходу: • Використання краудсорсінгових платформ на кшталт Linis Crowd для збору даних про тональність; • Збір «природно промаркованих» текстів. Йдеться, наприклад, про «позитивні» та «негативні» відгуки в Інтернет-магазинах (напр. «Розетка»), базах фільмів (напр. IMDb). Слід, однак, мати на увазі, що моделі побудовані на основі навчальних масивів, чутливі до їх тематики. Тобто не варто застосовувати модель, розраховану на текстах відгуків про фільми до аналізу політичного дискурсу. Водночас, тематично ідентичні тексти вдається класифікувати з високою точністю: наприклад, модель, розрахована автором із використанням алгоритму Random Forest на основі відгуків користувачів з розділу магазину «Розетка» «Дрібна побутова техніка» має точність класифікації 89,8%. 1. Krippendorff K. Content analysis: An introduction to its methodology. / Krippendorff K.: Sage, 2004. 2. Murphy J., Link M. W., Childs J. H., Tesfaye C. L., Dean E., Stern M., Pasek J., Cohen J., Callegaro M., Harwood P. Social Media in Public Opinion Research Executive Summary of the Aapor Task Force on Emerging Technologies in Public Opinion Research // Public Opinion Quarterly. ‒ 2014. ‒ T. 78, № 4. ‒ C. 788-794. 3. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and trends in information retrieval. ‒ 2008. ‒ T. 2, № 1-2. ‒ C. 1-135. 4. Steenbergen M. R., Marks G. Evaluating expert judgments // European Journal of Political Research. ‒ 2007. ‒ T. 46, № 3. ‒ C. 347-366. 5. Wilson T., Wiebe J., Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis // Proceedings of the conference on human language technology and empirical methods in natural language processing ‒Association for Computational Linguistics, 2005. ‒ C. 347-354.