Компьютерная лингвистика для всех - Мифы, Алгоритмы, Язык - Анатолий Анисимов
Шрифт:
Интервал:
Закладка:
Постепенно происходит незаметный прцесс отделения языка от мира вещей. Он сам становится источником своего развития, в нем все сильнее начинает раскручиваться пружина рекурсии. Воозникают сложные многоуровневые предложения, усложняется комментарий, появляются рекурсивные сюжеты. Язык увлеченно играет своими отражениями, управляет мышлением человека, определяет его развитие в пространстве представления. Язык замкнулся в себе и превратился в самостоятельную грозную фигуру мира, равную Вселенной.
СТРУКТУРЫ ЯЗЫКАФормальным моделям синтаксических структур естественного языка уделяется значительное внимание в современной проблематике систем искусственного интеллекта и компьютерной лингвистики. Это связано с необходимостью создания действенных программ генерации и анализа предложений естественного языка в экспертных и информационных системах, во многих системах управления и принятия решений, в перспективных ЭВМ будущих поколений. Сейчас уже ясно, что любое продвижение в этой области влечет прогресс в понимании эволюционного процесса развития языка и мышления человека. Самая значительная структурная текстовая и коммуникативная единица — предложение. На неточном уровне основные синтаксические конструкции предложений описываются в классических схемах граммати
— ------------=
(114) Там же. — С. 100
— ------------=
ки языка, восходящих к периоду античности и мало изменившихся к настоящему времени. Но до сих пор нет полной ясности в определения предложения. Большой вклад в развитие этого понятия внесли отечественные лингвисты — А. Л. Потебня, М. Н. Петерсон, Л. В. Щерба, А. М. Пешковский, Ф. Ф. Фортунатов, Д. Щахматов, В. В. Виноградов, И. Ю. Шведова, Д. В. Гладкий и др. Почти все соглашались, что предложение выражает законченную мысль. С этой точки зрения критике подверглось понятие придаточного предложения — оно "выражает мысль" только внутри единого сложного предложения и поэтому его нельзя рассматривать как предложение (М. Н. Петерсон, Я. С. Поспелов). Некоторые считали, что понятие «мысль» еще более туманно, чем «предложение». Поэтому подвергалось критике как неформальное определение предложения через законченную мысль. Потебня в 70-е годы прошлого века отмечал необходимость наличия главного глагола в предложении. Особенно ярко это проявляется в арийских языках. В славянских выпадение глаголов из некогорых конструкций объяснялось историческими изменениями языка. Считалось, что в праиссторические времена такие глаголы должны были присутствовать. Эта концепция также критиковалась как непроверяемая на практике. Пешковский в первой половине нашего века вернулся к концепции "законченной мысли". Он высказал идею о подчинении одних частей предложения другим. Ученый признавал главным членом предложения подлежащее, а сказуемое оказывалось подчиненным словом, хотя он и отмечал, что сказуемое — самое главное слово для выражения процесса мысли. Самое главное слово оказалось подчиненным! Не в силах справиться с этим противоречием, он объявил, что здесь проявляется антиномия основ языка. Виноградов акцентировал внимание на так называемой предикативсвязи, объединяющей подлежащее и сказуемое в предикативное ядро. Тезис о единице мышления положил в основу определения предложения и Шахматав. Он считал, что такой единицей не может быть логическое суждение, являющееся утверждением или отрицанием чего-нибудь. За единицу мышления он принимает "психологическую коммуникацию". Отталкиваясь от идеи Пешковского, в последние годы значительное развитие получила концепция управляющей связи слов и словосочетаний внутри предложения. Тонкие отношения управления между словами изучаются в известных лингвистических моделях деревьев подчинения и систем составляющих, появившихся в 50-е годы нашего столетия. На этих двух последних моделях остановимся дальше более подробно. Очевидное достоинство всех перечисленных моделей — их правильность — адекватное отражение тех или иных специфических характеристик синтаксической структуры текста. Однако ни одна из этих моделей еще не была использована для создания каких-либо действующих систем общения с ЭВМ на естественном языке. Модель деревьев подчинения ориентирована на управляющие связи только по словам, а модель систем составляющих учитывает только иерархическое отношение вложенности словосочетаний в линейной структуре текста. Эти факторы лишь приближенно описывают действительные коммуникативные свойства, содержащиеся в синтаксических структурах текста. Поэтому ученые предприняли попытки построения моделей, обобщающих средства деревьев подчинения и систем составляющих. Так, А. С. Нариньяни, исходя из задач практического программирования систем, взаимодействующих с использователем на естественном языке, предложил модель системы компонент. В этой модели структура предложения описывается в виде системы синтаксических компонентов, связанных отношениями правления и примыкания. Допускаются разрывность и пересечения компонент. Гладкий разработал концепцию синтаксических групп. Здесь наиболее явно подчеркивается важность учета управляющих связей между группами слов, образующих цельный синтаксический объект в структуре предложения. Таким образам, уточнение моделей синтаксических структур идет от уточнения управляющих связей между словами и словосочетаниями к уточнению связей между группами синтаксических единиц. При этом с неизбежностью происходит перемещение точки рассмотрения синтаксических структур из линейного порядка, навязанного последовательностью записи текста, к сложному пространству, образованному синтаксически связанными группами объектов. В пределе (оставаясь в рамках синтаксиса) приходим к пространству представления, не зависящему от порядка записи текста, а значит, и от национального языка, выражающему все предикативные и определяющие отношения, содержащиеся в синтаксических структурах. Это пространство, названное управляющим, образует полную синтаксическую структуру предложения и является рекурсивно-топологическим выражением того процеса, который называется мыслью. В отличие от чисто лингвистического подхода предложение рассматривается как некоторый динамический вычислительный рекурсивный процесс, развивающийся в управляющем пространстве, связывающем синтаксически сгруппированные части преддожения информационными каналами. Структура управляющего пространства отражает семантику определяющих и предикативных конструкций языка. Неожиданным оказалось то, что управляющие пространства подобного вида уже рассматривались как вычислительная модель для рекурсивно-параллельных процессов. Это уже упоминавшиеся ПАРУС-структуры. В формальном аспекте предлагаемая модель — это одновременное обобщение деревьев подчинения и систем составляющих, а также других упоминаемых ранее моделей. Реализация этой модели ориентирована на ПАРУС-системы программирования, поддерживающие концепцию рекурсивно-параллельного программирования в управляющих пространствах. При изложении мы ограничиваемся концептуальным уровнем. Подробности и уточнения конкретных деталей выходят за пределы книги.
Деревья подчинения, системы составляющих и синтаксических групп.
Ограничимся неформальными определениями. Считается, что в предложении слово и управляет словом v (v подчинено и), если v выступает непосредственным уточнением (комментарием) слова и. Такую зависимость изображают ориентированной дугой, направленной от слова и к v. Сказуемое главное в предложении, остальные слова всегда имеют непосредственных «хозяев». Отношение непосредственного подчинения слов образует дерево подчинения предложения. При графическом изображении таких деревьев обычно учитывают порядок слов самого предложения, т. е. соотносят само дерево подчинения с его отображением в линейную запись (рис. 15). В терминах деревьев подчинения можно успешно выражать многие стилистические характеристики текстов (115).
— ------------=
(115) Севбо И. П. Графическое представление синтаксических структур и стилистическая диагностика. — Киев: Наук. думка, 1981 — 192 с.
— ------------=
Рис. 15. Варианты дерева зависимостей предложения
* 1 Какой-то тайный смысл был в этих знаках. * 2
Другая известная модель, отражая иерархическую структуру частей предложения, — системы составлявших. Их удобно задавать в виде скобочной структуры. В скобки заключают синтаксически связные словосочетания. Например, (Онегин, (добрый (мой приятель))), (родился (на (брегах Невы))). Очевидно, рассмотренные модели дают важную информацию о синтаксической структуре предложения. Однако у обеих есть существенные недостатки. Деревья подчинения не учитывают связей между словосочетаниями и синтаксически целостными группами слов. В сложных предложениях группы слов могут служить для уточнения одного слова или другой группы слов, что затруднительно выразить связями деревьев подчинения. Системы составляющих игнорируют направленные связи. Кроме того, они не позволяют описывать разрывные словосочетания. Поэтому ни одна из моделей не дает полного представления о синтаксической структуре предложения. Отталкиваясь от такой критики, Гладкий предложил более общую модель, названную им системой синтаксических групп (116). Синтаксическая группа — это подмножество слов