Русский язык. Синтаксис и семантика

Размер шрифта:   13
Русский язык. Синтаксис и семантика

© Игорь Владимирович Волков, 2024

ISBN 978-5-0065-0078-5

Создано в интеллектуальной издательской системе Ridero

Естественный язык можно рассматривать как язык программирования для живого нейрокомпьютера. Такой подход позволяет разрешать проблемы, неразрешимые в рамках чистой лингвистики. Синтаксис – это группировка слов. Такая необходимость возникает чисто технически.

Человеческий интеллект поддерживается корой большого мозга. Она представляет из себя 2-мерную структуру, разделенную на поля с определенным функциональным назначением.

Рис.0 Русский язык. Синтаксис и семантика

Задняя половина сенсорная, работает на вход. Передняя – моторная. Чем дальше вперед, тем более абстрактное планирование выполняется. Непосредственно вдоль центральной борозды, расположена первичная моторная кора, которая напрямую управляет мускулатурой.

Внутренний формат данных мозга – это 2-мерные образы. Они передаются между различными отделами через параллельные каналы, т.е. весь образ сразу.

Рис.1 Русский язык. Синтаксис и семантика

При языковой коммуникации используется последовательная связь. Сжатие данных очень существенное. Это даже не 1-мерный, а 0-мерный формат.

Корковые образы являются функцией времени. Это не статические фотографии, а полноценное кино. При передаче через языковый канал, такая матрица превращается в одну точку. Это становится возможным благодаря тому, что словесное представление есть описание сцены.

Вообразите, что вы попали в новую комнату.

Рис.2 Русский язык. Синтаксис и семантика

Интерьер содержит бесконечное число деталей, но вы их игнорируете. Вместо этого, распознаете стандартные предметы мебели и запоминаете их расположение. Синтаксис – это изобретение науки, сделанное для собственного удобства. Не факт, что на уровне физиологии существует такая отдельная стадия анализа.

Конвертация из параллельного в последовательный формат происходит в зонах Брока/Вернике.

Рис.3 Русский язык. Синтаксис и семантика

Однако анализ сцены – функция других отделов. Он может проходить и в невербальной форме. Лингвисты отмечают, что синтаксические структуры типа дерева грамматического разбора предложения уже несут какую-то смысловую нагрузку.

Рис.4 Русский язык. Синтаксис и семантика

Полноценная семантика появляется, когда слоты этого фрейма заполняются конкретными словами.

Синтаксис можно рассматривать, как абстрактную семантику. Это вопрос терминологии. Можно говорить про подлежащее, сказуемое и дополнение, а можно рассматривать семантические роли: субъект, действие, объект. В далеком прошлом, таких понятий было немного. Жизнь была простой и предельно конкретной. Потом постепенно усложнялась. Появлялись абстрактные категории. Что такое справедливость? Предмет или действие? Поэтому вводятся грамматические категории существительного и глагола. Они полностью оторваны от реальности. Служат только для связи слов в предложении. Имея в ввиду семантические корни синтаксиса, можно использовать более естественную грамматику. Она легче для понимания.

Два уровня семантики

«Что это значит?» Каждый задает этот вопрос время от времени. Теперь давайте спросим: «Что есть смысл?» Человеческий язык – это не более чем знаковая система, которая используется для описания реальности, но когда мы читаем текст, наш мозг не создает реальность. Вместо этого, он создает еще одно представление в виде внутренних образов. Таким образом, мы имеем три слоя: реальность сама по себе, ее представление в нервной системе и ее текстовое описание. Разнообразные трюки понимания связаны с трансформацией из одного слоя в другой.

Не слишком много известно о тонких деталях этого внутреннего представления, но некоторые из них могут быть отражены в синтаксисе. Язык – это позднее приобретение эволюции и понимание зависит от качества невербального восприятия. Наиболее отчетливые детали можно выяснить из анатомии мозга. Образы человеческой психики локализованы в неокортексе. Новая кора – это двумерная структура. Ее толщина составляет всего несколько миллиметров, в то время как площадь – много квадратных сантиметров. Неокортекс разделен на много функционально специализированных полей. Они представляют разные сенсорные модальности, а также абстрактные уровни.

Рис.5 Русский язык. Синтаксис и семантика

Один и тот же словесный формат может быть использован для слухового и зрительного восприятия. Первичные поля, где сигнал поступает в кору, изучены лучше всего. Было установлено, что изображения внешнего мира здесь все еще сохраняют свою форму. Далее, они могут быть подвергнуты существенным модификациям. Например, преобразование Фурье выдает совершенно другой образ. Первичная зрительная кора – это место, где два мира встречаются друг с другом. Если понять как язык описывает двумерные изображения, то мы сможем применить те же принципы ко всему внутреннему миру.

Теперь давайте перейдем к объективной семантике. Как язык описывает реальный мир? Чтобы определить это, нам нужно найти какое-то соответствие между чертами того и другого, но как мы назовем последние? Опять нужен какой-нибудь язык. Проблема замыкается на себя. Давайте оставим ее философам и используем аксиоматический подход. Язык отражает наше восприятие. Элементы языка – это то, что мы извлекаем из реального мира. Быть может, есть что-то еще, но мы об этом не знаем. Так что же можно найти? Весь словарный запас распадается на несколько частей речи. Существительные представляют предметы, глаголы – действия. Это статика против динамики. Прилагательные – это свойства существительных, в то время как наречия – свойства глаголов.

Словарь содержит главную часть языка – названия природных феноменов, но язык – это не только словарь. Синтаксис – это набор правил, по которым слова могут составлять предложения. В резульнате, описательные возможности существенно возрастают. Это чистая комбинаторика. Предположим, вы имеете предложение из 3 слов и всего 100 слов в словаре. Полное число комбинаций всех со всеми будет 1000000. С другой стороны, именно здесь может быть скрыта большая наука. Образы тоже могут создаваться по принципу «от общего к частному» и «от частей к целому». Если предмет представлен отдельным существительным, его можно рисовать черно-белым.

Рис.6 Русский язык. Синтаксис и семантика

Как только вы добавляете прилагательное, обозначающее цвет, это соответствует выполнению команды «переключи все пиксели <предмета> в <цвет>».

Рис.7 Русский язык. Синтаксис и семантика

Форматы внутреннего и языкового представлений сильно различаются. Как они соответствуют друг другу? Подобно цифровой электронике, формат образов – цифровой. Как сетчатка глаза,

Рис.8 Русский язык. Синтаксис и семантика

так и серое вещество мозга

Рис.9 Русский язык. Синтаксис и семантика

состоят из нейронов.

Между тем, образы сами по себе – аналоговые. Даже черно-белые картинки имеют градации серого с плавным переходом от света к тени. Напротив, язык очевидно дискретный, так что необходимо преобразование. Подобная трансформация широко используется в технике, но это аналого-цифровое преобразование. Аналого-дискретное – это другое. Какие методы можно предложить?

Естественный язык имеет числительные, так что возможны параметрические методы. Предположим у вас есть имя «эллипс» с числовым параметром эксцентриситета. Вы можете постепенно менять форму от прямой линии до круга.

Рис.10 Русский язык. Синтаксис и семантика

Подобно этому, дискретные параметры могут задавать подклассы. Представьте бетонное одноэтажное здание. Теперь пусть это будет бревенчатая изба. Теперь – небоскреб. Это разные варианты дома. Оцифровка также используется, только с небольшим числом градаций. Например, видимый свет имеет непрерывный спектр. Любая длина волны возможна из определенного диапазона, но язык делит их на несколько дискретных цветов.

Рис.11 Русский язык. Синтаксис и семантика

Частотные методы также возможны. Предположим, есть текст, по которому разбросаны 2 имени. О ком этот текст? Посчитайте число каждого и сравните. Если вы измените их частоту, ответ может измениться соответственно.

В конце концов, образы были реализованы в программировании через Объектно-Ориентированную парадигму. Подобный подход явно присутствует и в естественном языке. C++ ввел объекты, но их прототипы уже были в C как тип данных ’struct’.

Он может использоваться для представления результатов синтаксического разбора, так что предложение естественного языка уже представляет образ. Более тщательное описание содержит несколько предложений. Подобно языкам программирования, естественный язык группирует предложения в параграфы, главы, книги.

Рис.12 Русский язык. Синтаксис и семантика

Объекты могут быть вложены друг в друга.

Как можно представить смысл в компьютере? Конечно, идеально было бы реализовать внутренние образы непосредственно, но для представления высокого качества это слишком накладно. Вдобавок, мы не знаем деталей. Есть другое решение. Как мы уже видели, язык представляет не реальность непосредственно, а результат ее восприятия, то есть те самые образы. Смысл текста – еще один текст. Тогда, в чем разница? Трюк состоит в том, что восприятие иерархично, причем следующие стадии являются более абстрактными. Второй текст будет представлять следующий уровень когнитивной системы. Самое большое преимущество в том, что такое решение сохранит наиболее важные детали – те, которые мы уже знаем и еще неизвестные.

Какие трансформации возможны? Простейшая – это нормализация. Чтобы несколько пользователей могли работать с одной базой знаний, все синонимы нужно заменить одним словом. Это будет главным именем кластера. Другой метод – вывод. Предположим факт:

«Я поставил книгу на полку».

Смысл будет:

«Книга стоит на полке».

Синтаксис

Попытки составить полное описание порождают обширную классификацию. От того, как это делать, зависит оптимальность результата. В литературе выделяют следующие категории. На лексическом уровне (отдельных слов) это части речи, словосочетания, группы существительного и глагола. На синтаксическом (уровень предложения) – члены предложения, группы подлежащего и сказуемого. Эти уровни перекрываются. Если сказуемое выражено глаголом, то группа сказуемого будет группой глагола. Кроме группы подлежащего, именная группа может также играть роль прямого дополнения, а предложная группа – предложного.

Если идти от внешнего вида предложения, то проще всего разделить все члены на главные и второстепенные. Далее строить классификацию. При этом не ясно, какой из главных членов является самым главным. Некоторые считают подлежащее. Другие – сказуемое. От этого решения зависит последующая семантическя интерпретация.

Однако если идти от семантики, точнее от внутреннего нейронного представления, то вопрос разрешается сам собой. Каждое предложение представляет внутренний образ. Попав в незнакомую обстановку, вы оглядываетесь и ваше зрительное восприятие делает мгновенные снимки. Каждый из них – это сцена.

Так подлежащее или сказуемое? В принципе, сцена статична. Часто есть главный предмет, на который направлено внимание, или просто субъект действия. Если ничего не меняется, то для описания вообще достаточно только распространенного подлежащего.

Однако часто (50/50) вокруг происходят какие-то процессы. Любой нейронный образ есть функция времени, так что динамика – более общее состояние. Если мы будем считать сказуемое самым главным членом, то весь текст будет ответом на вопрос: «Что происходит вокруг?» Что же касается статических состояний, специально для этого есть множество глаголов: находится, лежит, стоит, является и т. п.

Безглагольные предложения являются неполными, эллиптическими конструкциями. Всегда можно восстановить недостающее сказуемое.

Ночь, тишина. -> Стоит ночь, тишина.

Между прочим, нейронные сети делают это особенно эффективно прямо на аппаратном уровне. Более того, они без проблем производят и более сложные трансформации.

Ночь, тишина. -> Стоит тихая ночь.

Точно так же глаголы переходят из финитной в нефинитную форму. Инфинитив может использоваться как существительное, а причастие и деепричастие – как прилагательное и наречие.

Все это вполне естественно на уровне нейронных сетей. Даже если образ имеет динамику, его мгновенный снимок будет статичным. Действие может быть частью другого действия или его атрибутом. Язык просто пытается вывести все это наружу.

Некоторые лингвистические проблемы хорошо исследованы математикой. Если мы оставим единственный главный член – сказуемое, то предложения естественного языка будут совместимы с формальной логикой. Мы сразу получаем в свое распоряжение мощную машину вывода (Inference Engine) и кое-какие теоретические результаты.

Так, большинство теорем доказано для исчисления предикатов первого порядка. Уже второй порядок представляет трудности. В естественном языке это соответствует случаю, когда глагол распространяется другим глаголом.

Он хочет есть.

Желает знать.

Глаголы-связки в Английском языке есть формализация такой же конструкции. Математика предупреждает: в сложных случаях не удивляйтесь сюрпризам.

В-основном существует 2 способа классификации. Первый – обобщение. Так, предмет – это материальная вещь. Однако существительное может иметь нематериальную семантику, как у слова программа. Для объединения можно использовать термин объект.

Не всегда для выделенного множества можно найти одно-единственное понятие. В таком случае используется перечисление. Типичный пример – фразеологизмы, устойчивые словосочетания, которые формируются по своим правилам. В простейшем случае – это единственное словосочетание, однако некоторые глаголы могут особым образом управлять своей группой. Все множество этих частей речи делится на переходные и непереходные. Отдельные слова могут формировать свою собственную подгруппу. Это нарушает общее правило синтаксиса, что он зависит только от части речи, но не от конкретного слова.

Нейрофизиологический подход к синтаксической классификации намекает на полезность группировки, как это делается при компьютерном анализе. Вместо главных и второстепенных членов вводят несколько промежуточных уровней абстракции и получают дерево синтаксического разбора. Тогда все предложение делится на группу подлежащего и сказуемого. Можно даже первую включить во вторую на тех же правах, что и прямое дополнение.

Рис.13 Русский язык. Синтаксис и семантика

В этом случае, действие будет иметь субъекта, объект, на который оно направлено, и разнообразные обстоятельства. Однако оставить только один главный член – слишком радикальное изменение. Войдет в резкое противоречие со школьной программой. Тем не менее, для программистов может представлять интерес.

Здесь предложные группы могут играть роль обстоятельства или непрямого дополнения. Различить иногда сложно, что представляет препятствие для учащихся. В Английском языке косвенным дополнением называется беспредложное.

Продолжить чтение