Skip to content

The repository contains files (notebooks, data) for the course work of the 2nd course: "Topic modeling for text document analysis".

Notifications You must be signed in to change notification settings

yuuusha/topic-modeling

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Β 

History

4 Commits
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 
Β 

Repository files navigation

Π Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ содСрТит Ρ„Π°ΠΉΠ»Ρ‹ (Π½ΠΎΡƒΡ‚Π±ΡƒΠΊΠΈ, Π΄Π°Π½Π½Ρ‹Π΅) ΠΊ курсовой Ρ€Π°Π±ΠΎΡ‚Π΅ 2 курса ΠΏΠΎ Ρ‚Π΅ΠΌΠ΅ "ВСматичСскоС ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ для Π°Π½Π°Π»ΠΈΠ·Π° тСкстовых Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ²".

ВСматичСскоС ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ – ΠΏΡ€ΠΈΠ΅ΠΌ машинного обучСния Π±Π΅Π· учитСля для опрСдСлСния Ρ‚Π΅ΠΌ ΠΊΠΎΠ»Π»Π΅ΠΊΡ†ΠΈΠΉ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚ΠΎΠ².

LDA – гСнСративная вСроятностная модСль, ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡŽΡ‰Π°Ρ распрСдСлСниС Π”ΠΈΡ€ΠΈΡ…Π»Π΅ для обнаруТСния Ρ‚Π΅ΠΌ.

LSA – ΠΌΠ΅Ρ‚ΠΎΠ΄, Π°Π½Π°Π»ΠΈΠ·ΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉ взаимосвязь ΠΌΠ΅ΠΆΠ΄Ρƒ тСкстамии Ρ‚Π΅Ρ€ΠΌΠΈΠ½Π°ΠΌΠΈ для выявлСния сходства.

NMF – Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌΡ‹ Π»ΠΈΠ½Π΅ΠΉΠ½ΠΎΠΉ Π°Π»Π³Π΅Π±Ρ€Ρ‹ для разлоТСния ΠΌΠ°Ρ‚Ρ€ΠΈΡ†, ΠΈΠΌΠ΅ΡŽΡ‰Π΅Π΅ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½Π΅Π΅ свойство кластСризации.

Π’ исслСдовании Π±Ρ‹Π» использован датасСт, содСрТащий тСксты Π½Π° английском языкС, относящиСся ΠΊ ΠΎΠ΄Π½ΠΎΠΉ ΠΈΠ· Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅Ρ… ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΉ:

  • ΠΊΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Π΅ Π½Π°ΡƒΠΊΠΈ;
  • ΠΌΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ°;
  • Ρ„ΠΈΠ·ΠΈΠΊΠ°;
  • статистика.

Π’Π΅ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ выявила модСль LDA:

image

НСтрудно Π·Π°ΠΌΠ΅Ρ‚ΠΈΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ Ρ‚Π΅ΠΌΠ° β„–0 ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΡŽ «Бтатистика», Ρ‚Π΅ΠΌΠ° β„–1 скорСС относится ΠΊ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Β«ΠšΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Π΅ Π½Π°ΡƒΠΊΠΈΒ», Ρ‚Π΅ΠΌΠ° β„–2 ΠΌΠΎΠΆΠ΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»ΡΡ‚ΡŒ ΠΊΠ°ΠΊ Β«ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΡƒΒ», Ρ‚Π°ΠΊ ΠΈ Β«Π€ΠΈΠ·ΠΈΠΊΡƒΒ», Π° Π² Ρ‚Π΅ΠΌΠ΅ β„–3 Ρ‡Π΅Ρ‚ΠΊΠΎ прослСТиваСтся катСгория Β«Π€ΠΈΠ·ΠΈΠΊΠ°Β».

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ составила 61%.

Π’Π΅ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ выявила модСль LSA:

image

image

C Π·Π°Π΄Π°Ρ‡Π΅ΠΉ модСль ΡΠΏΡ€Π°Π²ΠΈΠ»ΠΎΡΡŒ нСсколько Ρ…ΡƒΠΆΠ΅ ΠΏΡ€Π΅Π΄Ρ‹Π΄ΡƒΡ‰Π΅ΠΉ, ΠΎΠ΄Π½Π°ΠΊΠΎ Π²ΠΈΠ΄Π½ΠΎ, Ρ‡Ρ‚ΠΎ Ρ‚Π΅ΠΌΠ° β„–0 ΠΏΡ€Π΅Π΄ΠΏΠΎΠ»ΠΎΠΆΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ относится ΠΊ ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Β«ΠšΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Π΅ Π½Π°ΡƒΠΊΠΈΒ», Ρ‚Π΅ΠΌΠ° β„–1 большС ΠΏΠΎΡ…ΠΎΠΆΠ° Π½Π° «Бтатистику», Ρ‚Π΅ΠΌΠ° β„–2 скорСС всСго являСтся Β«ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠΎΠΉΒ» ΠΈ Ρ‚Π΅ΠΌΠ° β„–3 сочСтаСт Π² сСбС слова ΠΈΠ· ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Β«Π€ΠΈΠ·ΠΈΠΊΠ°Β».

Π’ качСствС ΠΎΠ΄Π½ΠΎΠ³ΠΎ ΠΈΠ· прСимущСств LSA Π²Ρ‹Π΄Π΅Π»ΡΡŽΡ‚ ΠΏΠ΅Ρ€Π΅Ρ…ΠΎΠ΄ Π² сСмантичСскоС пространство – условная систСма ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ тСкст прСдставлСн Π² Π²ΠΈΠ΄Π΅ Ρ‚ΠΎΡ‡ΠΊΠΈ с ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½Π½Ρ‹ΠΌΠΈ ΠΊΠΎΠΎΡ€Π΄ΠΈΠ½Π°Ρ‚Π°ΠΌΠΈ. Π’ сСмантичСском пространствС ΠΌΠΎΠΆΠ½ΠΎ наглядно ΡƒΠ²ΠΈΠ΄Π΅Ρ‚ΡŒ, насколько ΠΎΠ΄ΠΈΠ½ тСкст Π΄Π°Π»Π΅ΠΊΠΎ располоТСн ΠΎΡ‚ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ. НапримСр, Ρ‚Π΅ΠΌΠ° β„–3 – Β«Π€ΠΈΠ·ΠΈΠΊΠ°Β», Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ Π΄Π°Π»Π΅ΠΊΠ° ΠΎΡ‚ Ρ‚Π΅ΠΌΡ‹ β„–0 – Β«ΠšΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Π΅ Π½Π°ΡƒΠΊΠΈΒ», Π° Ρ‚Π΅ΠΌΠ° β„–1 – «Бтатистика», ΠΏΠΎΡ‡Ρ‚ΠΈ Π½Π΅Π·Π°ΠΌΠ΅Ρ‚Π½Π° Π½Π° Ρ„ΠΎΠ½Π΅ Ρ‚Π΅ΠΌΡ‹ β„–0.

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ составляСт 33%.

Π’Π΅ΠΌΡ‹, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ выявила модСль NMF:

image

NMF-модСль выявила ΡΠ»Π΅Π΄ΡƒΡŽΡ‰ΠΈΠ΅ Ρ‚Π΅ΠΌΡ‹: Ρ‚Π΅ΠΌΠ° β„–0 соотвСтствуСт ΠΊΠ°Ρ‚Π΅Π³ΠΎΡ€ΠΈΠΈ Β«Π€ΠΈΠ·ΠΈΠΊΠ°Β», Ρ‚Π΅ΠΌΠ° β„–1 – Β«ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΠΊΠ°Β», Ρ‚Π΅ΠΌΠ° β„–2 – Β«ΠšΠΎΠΌΠΏΡŒΡŽΡ‚Π΅Ρ€Π½Ρ‹Π΅ Π½Π°ΡƒΠΊΠΈΒ», Ρ‚Π΅ΠΌΠ° β„–3 – «Бтатистика».

Π’ΠΎΡ‡Π½ΠΎΡΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ составляСт 44%.

Подводя ΠΈΡ‚ΠΎΠ³, ΠΌΠΎΠΆΠ½ΠΎ ΡΠΊΠ°Π·Π°Ρ‚ΡŒ, Ρ‡Ρ‚ΠΎ Π½Π°ΠΈΡ…ΡƒΠ΄ΡˆΠΈΠΉ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚ ΠΏΠΎΠΊΠ°Π·Π°Π»Π° модСль LSA: Π² Ρ‚Π΅ΠΌΡƒ β„–1 Π±Ρ‹Π» Π²Π΅Ρ€Π½ΠΎ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ лишь ΠΎΠ΄ΠΈΠ½ Π΄ΠΎΠΊΡƒΠΌΠ΅Π½Ρ‚. Π­Ρ‚ΠΎ ΠΌΠΎΠΆΠ½ΠΎ ΠΎΠ±ΡŠΡΡΠ½ΠΈΡ‚ΡŒ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π² сСмантичСском пространствС Ρ‚Π΅ΠΌΠ° β„–1 ΠΏΠΎΡ‡Ρ‚ΠΈ ΠΏΠΎΠ»Π½ΠΎΡΡ‚ΡŒΡŽ сливаСтся с Ρ‚Π΅ΠΌΠΎΠΉ β„–0, Ρ‡Ρ‚ΠΎ Π΄Π΅Π»Π°Π΅Ρ‚ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΈΠ΅ этой Ρ‚Π΅ΠΌΡ‹ Π·Π°Ρ‚Ρ€ΡƒΠ΄Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ. Π’Π°ΠΊΠΆΠ΅ слСдуСт ΠΏΠΎΠ΄Ρ‡Π΅Ρ€ΠΊΠ½ΡƒΡ‚ΡŒ, Ρ‡Ρ‚ΠΎ LSA Ρ…ΠΎΡ€ΠΎΡˆΠΎ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ Π·Π°Π΄Π°Ρ‡ΠΈ сСмантичСского сходства, Π² Ρ‚ΠΎ врСмя ΠΊΠ°ΠΊ LDA Π»ΡƒΡ‡ΡˆΠ΅ справляСтся с тСматичСским ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ. NMF-модСль ΠΏΠΎΠΊΠ°Π·Π°Π»Π° срСдниС Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹: это ΠΎΠ±ΡŠΡΡΠ½ΡΠ΅Ρ‚ΡΡ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ ΠΎΠ½Π° Π±ΠΎΠ»Π΅Π΅ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Π° ΠΈ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΈΡ‚ для Ρ€Π΅ΡˆΠ΅Π½ΠΈΡ самых Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡ машинного обучСния: ΠΎΡ‚ кластСризации Π΄ΠΎ тСматичСского модСлирования.

На основС Π΄Π°Π½Π½ΠΎΠ³ΠΎ исслСдования Π±Ρ‹Π»Π° написана научная ΡΡ‚Π°Ρ‚ΡŒΡ "Π£Π»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ качСства поиска источников с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ тСматичСского модСлирования" – Π˜Π½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΎΠ½Π½Ρ‹Π΅ Ρ‚Π΅Ρ…Π½ΠΎΠ»ΠΎΠ³ΠΈΠΈ Π² ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Π½ΠΈΠΈ: ΠΌΠ°Ρ‚Π΅Ρ€ΠΈΠ°Π»Ρ‹ XVI ВсСроссийской Π½Π°ΡƒΡ‡Π½ΠΎ-практичСской ΠΊΠΎΠ½Ρ„Π΅Ρ€Π΅Π½Ρ†ΠΈΠΈ – Π‘Π°Ρ€Π°Ρ‚ΠΎΠ²: Баратовский унивСрситСт [ΠΈΠ·Π΄Π°Π½ΠΈΠ΅], 2024. – Π’Ρ‹ΠΏ. 7 – 88-93 с.

About

The repository contains files (notebooks, data) for the course work of the 2nd course: "Topic modeling for text document analysis".

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages