ИИ изучает польский язык и находит то, чего лингвисты не замечали 200 лет

Сегодня • arXiv cs.CL
Польская фонология считается одной из самых изученных в славистике. Но когда исследователи из Варшавского университета применили дистрибутивную семантику к морфологическим данным, результат шокировал: 34% языковых паттернов работают по законам, которых нет в учебниках.

Два века лингвисты описывали польскую морфологию через призму исключений и нерегулярностей. Система падежей, чередования согласных, ударение — всё это традиционно объяснялось историческими изменениями и заимствованиями. Учебники пестрят оговорками 'кроме случаев' и 'за исключением'.

Команда из Института компьютерной лингвистики обучила модель на корпусе из 2.3 миллиарда словоформ и обнаружила нечто неожиданное. То, что казалось хаосом исключений, на самом деле подчиняется строгим дистрибутивным правилам. Модель предсказывает 'нерегулярные' формы с точностью 89%, используя только контекстное распределение морфем.

Профессор Анна Купш, руководитель исследования, формулирует это радикально: 'Мы искали исключения там, где нужно было искать правила более высокого порядка. ИИ видит паттерны, которые человеческий мозг отбрасывает как шум.' Исследование показывает, что семантические векторы морфем содержат информацию о фонологических процессах — связь, которую лингвистика считала невозможной.