Глава3. Методы и приемы формализации знаний

Отыскивая наиболее удобные, рациональные средства и формы информационного обмена человек чаще всего сталкивается с проблемой компактного и однозначного представления знаний. Представление знаний это процесс, конечная цель которого поместить некоторый объем знаний в своеобразную "упаковку", в которой он может начать движение по каналам информационного обмена, дойти до получателя или задержаться в пунктах хранения знаний. Такой упаковкой может быть фраза устной речи, письмо, книга, справочник, географическая карта, кроссворд, картина и т.п. Каждый вид упаковки имеет свои особенности, но всем им присуще одно качество, хотя и не в одинаковой степени: упаковка призвана обеспечить сохранность вложенного знания. Причем не только и не столько физическую, сколько смысловую (семантическую). Для этого необходимо, чтобы отправитель и получатель информации упакованных знаний пользовались некоторой общей системой правил для их представления и восприятия. Назовем такую систему правил формализмом представления знаний. Самым естественным для человека формализмом является язык (устная речь и письменность). Основу любого языка составляет алфавит, т.е. множество букв (знаков). Буквы образуют слова, а цепочка слов — предложения. Правильные слова языка задаются его словарем, а правильные предложения строятся с помощью синтаксиса и грамматики. Перечисленных средств, в принципе, достаточно, чтобы считать язык подходящим средством представления знаний. Без самих знаний, без постоянной работы по их упаковке в языковые конструкции язык мертв. Он живет и развивается благодаря творческой энергии человека, благодаря тому, что человеческая мысль постоянно и настойчиво ищет выхода в выраженную в языке форму.

Всякую ли мысль или знание можно выразить в языковой форме? По-видимому, нет. Примером могут служить случаи, когда люди, пытаясь выработать определения интуитивно–простым понятиям, не могут удовлетвориться какой–либо их однозначной трактовкой. Например, существуют десятки различных определений понятия здоровье, неоднозначны в описаниях различных авторов понятия интеллект, мышление, информация и т.п. Отмечая эту ограниченность выразительных средств языка, Ф. Энгельс писал: "Дефиниции не имеют значения для науки, потому что они всегда оказываются недостаточными" [12]. Мысль, которую нельзя выразить в языковой конструкции не может быть включена в информационный обмен. Общение людей, таким образом, осуществляется с помощью языка как формы представления знаний. Одному и тому же содержательному знанию можно придать различную словесную или текстовую форму. Это очень сильно проявляется, например, в художественной прозе, поэзии и т.д. Богатство языка это и богатство культуры того или иного народа.

Вместе с тем, в некоторых областях деятельности людей это богатство и разнообразие выразительных средств естественного языка становится скорее недостатком, чем положительным свойством. Например, слова команды, как правило, коротки, резки, имеют однозначный смысл. Иначе нельзя, не получится согласованных и четких совместных действий подчиненных. В специальных отраслях науки формируются специфические языковые системы, являющиеся как бы "сужением" естественного языка. Особо выделяется язык математики, как некоторая основа изложения системы знаний в точных, естественных науках. Свой язык имеют химия, физика, философия и т.п. Целесообразность применения таких суженных языковых систем (диалектов), позволяет повысить надежность процессов информационного обмена: возможность неправильного истолкования передаваемой информации получателем снижается. При этом , конечно, сужается и круг получателей, т.к. для восприятия информации необходимо владеть соответствующим диалектом. Главные достоинства суженного языка — возможность создавать и использовать типовые, "стандартные" упаковки знаний, а также способность в значительной мере снять полисемию, или смысловую многозначность, присутствующую в том или ином тексте естественного языка. Полисемия — враг информационного обмена, фактор внесения искажения и ошибок (т.н. семантического шума) на пути передачи информации от отправителя к получателю. Поэтому устранение многозначности является одним из наиболее важных направлений в разработке формальных приемов представления знаний. Создание языка науки или языка деловой прозы, который ученые нередко называют "концеляритом" [7], является естественным шагом на этом пути, огромной работой общества на протяжении ряда столетий. Сопоставление этой подсистемы естественного языка с литературным языком показывает, насколько они различны по характеристикам, определяющим их выразительную способность. Так, "канцелярит" предназначен для объективизации изложения информации, использует, как правило, переводимые категории и языковые формы, лишен синонимии, оперирует конкретными фактами и понятиями, информативен (в противоположность информационной избыточности), ему присуща логичность, он по характеру алгебраичен (мысль, информация, знание развернуты в последовательность слов и предложений, постепенно формируясь в полном, законченном виде к завершению текста).

Все эти свойства не являются обязательными для языка литературы, которому свойственна субъективность форм, возможность применения непереводимых конструкций, бесконечно–богатая синонимия, образность (геометричность) высказываний и т.д. Дальнейшее продвижение в сторону формализации знаний приводит к понятиям класс и классификация. Классификация — распределение предметов, объектов и понятий по группам (классам) по однородным свойствам.

Представление о том, что любое знание определяется конечным числом основных понятий, господствовало в средние века. В 1235 г. Раймондо Луллий создал прибор, который в современной терминологии можно было бы назвать "генератором знаний". Сам автор дал ему название "Арс Магна" ("Великое искусство"). Устройство прибора было простым [1]: 14 плоских концентрических колец были разбиты на сектора и могли свободно поворачиваться вокруг оси. В каждом секторе размещалось некоторое высказывание. Сочетание высказываний, расположенных на секторах одного радиального направления формировало новое сложное знание. Прибор допускал 70 квадрильонов сочетаний. Его демонстрация имела успех. Идея классификации высказываний была уже заложена в "Арс Магна", т.к. каждое кольцо было предназначено для размещения высказываний, имеющих общую характеристику.

В складывающейся науке одним из первых принципов являлся принцип систематизации знаний. Поэтому классификация как метод научной систематики сразу же стала играть важную роль в формировании ядра знаний того или иного научного направления. Достаточно вспомнить классификационную систему К. Линнея в ботанике, систематику живых организмов, и т.п. Классификационные системы такого типа имеют выраженную иерархическую структуру, в силу которой все объекты (понятия, факты) разделены на уровни, связанные между собой отношением “старший — младший”: тип, класс, отряд, семейство, род, вид.

Примером классификации такого типа, где родо–видовые отношения пронизывают всю структуру соответствующих знаний, может служить известная "табель о рангах", введенная Петром 1 в 1722 г. Табель о рангах подразделяла чины на 14 рангов. Каждому чину соответствовала определенная должность. Первые 6 рангов статской и придворной служб и первый обер–офицерский чин в армии давали право на получение потомственного дворянства, что способствовало формированию дворянской бюрократии. Мы видим на этом примере, что классификация может проявить себя не только как инструмент организации научных знаний, но и как фактор социального порядка. Поэтому существующие системы тарифов и ставок, ученых степеней и званий, структура должностей и служебных постов в гражданской службе и армии играют не только организующую, но и стимулирующую роль. Подобная модель знаний получила в науке и практике название "иерархической". Ее достоинства в том, что она проста в освоении, легко поддерживается в рабочем состоянии (легко пополняется и "чистится"), эффективно решает задачу разнесения новых понятий по иерархическим уровням. Недостатки иерархической модели знаний состоят: во–первых в том, что прямые связи между понятиями соседних уровней обозначены слабо, или вовсе отсутствуют; во–вторых в том, что иерархическая классификация наиболее эффективна в тех случаях, когда при переходе от уровня к уровню работает один и тот же тип отношений, например, родо–видовой.

Систематика, лежащая в основе классификации может применяться как сильное средство направленного исследовательского поиска. Так, иногда оказывается полезным при рассмотрении группы объектов несколько каких–либо характерных для них признаков выделить в качестве определяющих и ввести некоторую меру степени проявления данных признаков. Такой подход называется морфологическим, так как использует идею разложения некоего (объекта) на его части (признаки). Если выбраны два признака, то в плоскостной системе координат можно построить графическую модель некоторой классификационной системы (рис.1) морфологического типа. С ее помощью рассматриваемая группа объектов может быть разделена, например, на четыре подгруппы (I–IV), причем каждый объект может быть отображен на диаграмме рис.1 точкой, координаты которой задаются значениями указанных признаков. Часто подобная группировка приводит к выявлению закономерностей связывающих объекты каждой группы, которые до этого не были известны. Благодаря такому подходу Д.И. Менделеев открыл знаменитый периодический закон. Подчеркивая доминирующую роль выделенного им признака, он писал: "...по смыслу всех точных сведений о явлениях природы масса вещества есть именно такое свойство его, от которого должны находиться в зависимости все остальные свойства ...Поэтому ближе или естественнее всего искать зависимости между свойствами и сходствами элементов, с одной стороны, и атомными их весами, с другой" [14]. Более того, Менделеев предсказал свойства некоторых, еще не открытых элементов, получивших временные имена экабора, экаалюминия, экасилицилия. Его предсказание блестяще подтвердились с открытием скандия, галлия и германия. С ярким применением морфологического метода связано имя швейцарского астрофизика Ф. Цвикки, который предсказал существование нейтронных звезд, используя в качестве классификационных признаков удаленность и светимость звезд. Морфологический метод осуществляет как бы анатомическое исследование объектов, понятий, значений путем расчленения целого на характерные, существенные части. Его цель — выяснение роли частного в целостной картине, систематизация знаний о данной реальности, составление гипотез о возможных вариантах новых (еще не данных) знаний. Зададимся, например, вопросом: каковы наши знания о понятии "средство передвижения по суше"? Попытаемся применить морфологический подход. Выделим два характерных признака: "тип двигателя" и "тип рабочего органа". Не претендуя на исчерпывающий анализ, составим морфологический портрет рассматриваемого понятия и убедимся, что большинство (8) из 12 возможных парных комбинаций двигатель — рабочий орган созданы людьми, представляют собой реально–достигнутое (данное) знание. Но есть в приведенной таблице не заполненные места. Можно сказать, что они обозначают возможные направления патентно–чистого технического творчества и как знать, может быть "парусник на гусеничном ходу" еще увидит свет. Упомянутые выше недостатки иерархической модели данных свойственны и морфологическим моделям. Их удается устранить, используя т.н. ветвящиеся (древовидные) структуры (модели) представления знаний. Отдельные понятия, факты, знания, связаны между собой отношениями, выражающими суть имеющихся между ними связей. Как в иерархической модели это могут быть родо–видовые отношения, но так же и другие типы отношений: "быть представителем", "иметь", "наследовать" и т.п. Однозначность связей в древовидной структуре и разнообразие охватываемых ею отношений позволяет повысить "динамизм" системы знаний. Действительно, система знаний, представленных иерархической или морфологической моделями статична, или как говорят — декларативна. В древовидной структуре можно прослеживать восходящие и нисходящие ветви связей получая формулы дедуктивного (от частного к общему), индуктивного (от общего к частному) и индуктивно–дедуктивного выводов. Например: "растение может быть цветком по имени роза"; "роза — цветок, часть растения"; "роза — цветок, имеющий лепестки". Благодаря такой организации представленные знания получают как дополнение к декларативности процедуральность, т.е. способность к выводу общих знаний из структуры отношений и понятий.

Древовидная структура знаний, несмотря на простоту и распространенность в обиходе информационного обмена, все–таки довольно специфична. В ней, как и в предыдущей модели знаний, заложена парадигма иерархичности. В тоже время внутреннее "мироустройство" некоторой системы знаний может не соответствовать этой парадигме. Рассмотрим в качестве примера понятие "трудовой коллектив". Совокупность знаний, описывающих конкретный трудовой коллектив, чрезвычайно разнообразна, или, как говорят, многоаспектна. Между аспектами часто не удается установить отношений иерархии (род–вид), хотя связь между ними имеет место.

Вот один из возможных аспектов: все представители трудового коллектива могут быть включены в список (с расположением, например, по алфавиту) с указанием против фамилии и имени каждого работника табельного номера, года рождения, образования, специальности, разряда, стажа работы и т.п. Назовем этот список — "Список 1".

Другой аспект: все члены коллектива работают на условиях сдельной оплаты и величина их заработка определяется на основе т.н. тарифной сетки. Поэтому, составив список специальностей и разрядов с указанием стоимости одного часа рабочего времени, мы формируем некоторое представление знаний о системе оплаты труда членов данного коллектива. Назовем этот список — "Список 2".

Третий аспект: при начислении зарплаты каждому работнику мы должны учитывать его фактическую выработку на протяжении некоторого периода работы, например, за месяц. Значит третий список, составляемый, скажем, мастером участка это список, состоящий из табельных номеров и фактически проработанного работником времени. Это "Список 3". Понятно, что все три списка содержат необходимый объем знаний о трудовом коллективе, если речь идет о начислении заработной платы. На рис.4 отражена их взаимосвязь и показано, как с помощью соотнесения списков друг с другом можно решить задачу определения величины заработка работника Иванова И.И. равную произведению тарифной ставки А на фактическое время работы В. Подобные модели представления знаний, состоящие из связанных друг с другом списочных структур получили название реляционных (от англ. relation — связь). В реляционных моделях удается представить более сложные области знаний. В них каждый из аспектов может рассматриваться как некоторый автономный блок, внутри которого допускается производить изменения, не затрагивая других областей и не внося при этом противоречий в общую картину знаний. Удобным средством является комбинация устойчивых и изменяемых знаний. Так знания, выраженные Списком 2 длительно устойчивы. В Списке 1 представлены знания, которые могут меняться с течением времени (текучесть кадров, изменение квалификации и т.п.). Список 3 обновляется каждый раз, когда возникает необходимость очередного расчета. Не вызывает принципиальных трудностей задача пополнения реляционной модели новыми знаниями путем расширения уже имеющихся списков и добавления новых списочных структур.

В приведенном примере мы рассмотрели лишь задачу определения величины заработка. Но, по-видимому, ясно, что реляционные модели, включающие достаточное по содержанию и количеству число списочных структур, создают возможность для решения большого количества разнообразных задач, каждая из которых является по существу задачей извлечения из общей суммы вложенных в модель знаний нужного конкретного знания по интересующему получателя вопросу.

Существуют и другие формализмы представления знаний, кроме перечисленных выше иерархических, морфологических, древовидных и реляционных моделей. Так, например, промежуточным между древовидной и реляционной моделью являются т.н. семантические сети. С их помощью между понятиями, фактами, знаниями устанавливаются связи — отношения. Они как бы являются обобщением древовидных моделей т.к. отличаются от последних снятием требований иерархичности. В то же время семантические сети могут считаться частным случаем реляционных моделей, т.к. именно из них могут быть построены связанные списочные структуры, когда понятие являющееся узлом семантической сети расширяется в список, а соответствующее отношение с другим списком из единичного становится групповым.

Все описанные приемы формализации знаний направлены на создание некоторой устойчивой "несущей конструкции", на которую может быть одета оболочка системы конкретных знаний. В случае, если между отправителем и получателем знаний достигнуто понимание, взаимная договоренность относительно этой несущей конструкции, то информационный обмен приобретает необходимую регламентирующую основу, что решающим образом повышает его эффективность. Выдающийся педагог Ушинский говорил: "Ум — это хорошо организованная система знаний".

Дубровский Е.Н.
Информационно-обменные процессы - факторы социального развития
Последняя редакция 1999 г.
©Дубровский Е.Н.

назад следующая