В данном документе описывается система мониторинга IP каналов, используемая в базовой сети RELCOM. Регламент ее использования описан в отдельном документе.
Система состоит из таких частей:
Сам процесс мониторинга выглядит так:
На самом деле, для ускорения работы часть информации формируется заранее (например, раз в минуту) и оператору выдается сразу, но на суть системы это не влияет.
Система контролирует:
Каждый объект имеет тип (R - роутер, I - интерфейс, B - BGP соединение), и уникальное имя. По каждому объекту ведутся:
Каждый объект опрашивается системой с некоторой периодичностью (по умолчанию это примерно 30 секунд), результаты опроса показываются на экране системы (если быть точнее, они пишутся в файл текущего состояния, по которому формируется картинка на экране). Эти данные обобщаются за некоторое время (по умолчанию примерно 3 минуты) и пишутся в файл статистики, по которому затем могут быть построены графики или посчитаны сводки. Кроме того, система определяет по данным опроса состояние объекта (по умолчанию это - НОРМАЛЬНОЕ СОСТОЯНИЕ, ПРЕДУПРЕЖДЕНИЕ О ВОЗМОЖНОМ НАРУШЕНИИ, НЕОПРЕДЕЛЕННОЕ СОСТОЯНИЕ и АВАРИЯ), и с учетом времени, в течении которого объект находится в этом состоянии, и записей в базе тикетов формирует текущий статус объекта. Затем все объекты, только аварийные объекты или только указанные оператором объекты (в зависимости от его настроек) показываются на экране монитора, причем состояния отображаются цветом, а разные параметры загрузки - графами или числами.
Каждое состояние объекта мониторинга может получиться двумя способами - во первых, быть сгенеренным по данным мониторинга, или, во вторых, получиться из какого то другого состояния при обработке тикета (тикет - это сделанная оператором запись, которая в частности описывает новое состояние объекта, с учетом той информации, которая есть у оператора но нет у системы мониторинга). При этом сам мониторинг порождает только несколько состояний, остальные могут получиться исключательно с помошью оператора. Состояния выделяются цветом и (иногда) звуковым сигналом. Ниже приводится табличка возможных состояний в версии мониторинга 1.1, и комментируется назначение каждого состояния. Набор состояний может быть изменен по мере освоения данной системы.
Таблица 1. Стандартные состояния.
Имя | Источник | Cостояние | Цвет | Вес | Сигнал | ||
---|---|---|---|---|---|---|---|
BGP | Канал: | Роутер: | |||||
E0 | Монитор | Только что упал | MAROON | 220 | |||
E1 | Монитор | Авария | RED | 270 | звук,муз. | ||
E2 | Оператор | Авария - устраняется | AQUA | 250 | |||
E3 | Оператор | Авария - неустранима | PURPLE | 210 | |||
E4 | Монитор или оператор | Важная авария | FUCHSIA | 280 | звук,муз. | звук,муз. | |
O0 | Монитор | Только что встал | LIME | 10 | |||
O1 | Монитор | Нормально | GREEN | 5 | |||
O2 | Монитор | Нормально | GREEN | 5 | |||
U0 | Монитор или оператор | Нет данных | BLUE | 200 | |||
U1 | Оператор | Не обращать внимание | GRAY | 200 | |||
U2 | Оператор | В наладке | NAVY | 200 | |||
U3 | Оператор | Вне нашей компетенции | BLACK | 200 | |||
W0 | Монитор | Возникла перегрузка | OLIVE | 120 | |||
W1 | Монитор | Перегрузка | YELLOW | 180 | |||
W2 | Оператор | Перегрузка неустранима | TEAL | 150 |
В этой табличке источник описывает возможные пути возникновения данного состояния. Система мониторинга может породить состояния O0, O1 (все нормально), E0, E1 (авария, E0 показывает что авария возникла только что /и возможно сама исчезнет/ а E1 показывает что авария не исчезла за 2 минуты), W0, W1 (предупреждение о перегрузке какого то ресурса), U0 - система не может найти объект мониторинга или собрать данные по нему (возможно, данный объект был неправильно описан).
Состояние E4 предназначено в основном для использования системными администраторами и позволяет разделить аварии на обычные, затрагивающие только данный объект (и непосредственно связанных с ним клиентов или клиента), и влияющие на всю сеть. В первой версии введено, кроме того, условное определение тяжести аварии системой по имени объекта - аварии с объектами, чьи имена начинаются с большой буквы, считаются тяжелыми, остальные обычными; это сделано временно для того, чтобы хоть как то различить клиентские и внутренние линки по их именам, пока не проведена полная квалификация объектов средствами самой системы мониторинга.
Остальные состояния предназначены для информирования операторов, администраторов и программистов о том, что на самом деле произошло с данным объектом.
Правила установки состояний описываются в регламенте (приложение 1). Общее правило состоит в том, что если авария не повлияла на работоспособность всей системы в целом, и не может быть устранена немедленно оператором, ее нужно перевести в одно из состояний, отличных от E1 / E4, чтобы на экране монитора красным цветом всегда выделялись только НОВЫЕ аварии, на которые еще не отреагировал оператор. Возможно, будет введено несколько состояний, позволяющих специфицировать аварию как _посмотреть группе LINKS_ или _посмотреть группе NOC_ или еще как то -передать ее обработку другой группе, но в первой версии такой возможности еще нет.
В первой версии монитора введена также возможность звукового сопровождения аварий, причем для удобства звуки привязываются не к состоянию,а к состоянию и типу объекта. Распределение звуковых сигналов в версии 1.1 указано в приведенной выше табличке, при этом под словом _музыка_ скрыт звук, сделанный по MIDI технологии (запись звука как набора нот и инструментов, для его проигрывания на машине должен быть установлен соответствующий модуль в Netscape или Explorer), под _звук_ скрыт тот же фрагмент, но записанный в формате AIFF (запись звука как с микрофона, аналогично должна иметься возможность проигрывать такие звуки в том Netscape или Explorer, который показывает экран мониторинга).
Если какое то состояние порождено мониторингом, и не является НОРМАЛЬНЫМ, то оно всегда сопровождается причиной установки этого состояния, а также временем его существования.
Система собирает следующие параметры объектов мониторинга:
В версии 1.1 информация по BGP соединениям не используется.
Забегая вперед, рассмотрим один из экранов системы - экран описывающий подробно состояние роутера и его каналов.
Таблица 2. Подробная выдача состояния.
|
В первой строке этой таблицы выводится состояние РОУТЕРА:
В последующих строках выводится информация об интерфейсах. Для примера рассмотрим строку, описывающую rich(1):
Для вызова монитора нужно прежде всего вызвать программу просмотра WWW (WWW brouther), как правило это будет либо netscape, либо Internet Explorer. Технология вызова зависит от конкретной системы.
После вызова нужно зайти на начальное меню монитора - меню выбора формата и размещения окон. Для работы с ним нужно понимать состав окон системы мониторинга.
Система использует 5 окон:
журналМонит:краткийполный[слепок]алармыПоискОбозн.Звук:нетмузыкасигнал
|
В этом окне показывается число объектов по типам и состояниям, а также выдается наиболее опасный (возможно, требующий реакции) объект (в примере выше его нет).
[без звука] означает текущий режим звукового сопровождения.
В системе имеется несколько вариантов размещения окон на экране, и для выбора из них служит так называемое начальное меню. Оно выглядит таким образом:
Не рекомендуется держать на экране несколько РАЗНЫХ вариантов одновременно, это сильно тормозит и сервер, и вашу рабочую станцию.
|
Для вызова монитора (точнее, программы отображения - сам монитор работает всегда в фоновом режиме) нужно:
Оператор может вызвать один из нескольких вариантов размещения окон:
Поскольку система вывода информации монитора реализована по стандартной WWW технологии, работа с окнами, меню, ссылками и кнопками ведется по обычным правилам работы в WWW бразере.
Нужно иметь в виду, что если окно с нужным именем уже существует (пусть и в спрятанном виде), а вы выбираете документ, который будет показываться именно в этом окне (например, описание канала - в окне LINKS), то документ будет выдан именно в это окно, и если оно спрятано, то вы не увидите его, пока не найдете и не поднимете окно наверх. Если вы вызываете документ в новое окно (правой клавишей мыши), то это окно не будет использоваться для новых документов (исключая полученных при навигации непосредственно в нем самом), но зато будет занимать ресурсы компьютера оператора.
Не всегда можно определить по виду документа, где именно содержатся ссылки на новые документы. Однако, если вы подводите мышь к такой ссылке, вид курсора на экране изменяется и будет отличаться от его обычного вида (сам вид зависит от системы - например, для Netscape под IRIX Unix это - стрелка, если нет ссылки, и ладонь с пальцем, если ссылка в данном месте имеется).
При работе с монитором практически вся информация отображается на окне MONITOR - в зависимости от нажатой кнопки, это может быть либо полная картина сети в компактном или нормальном виде, или обзор только аварийных объектов (включая объекты в необычном состоянии), или снимок сети.
При этом в мониторе бывает 3 типа картинок. Первый - это те картинки, что вызвываются по кнопкам меню МОНИТОР (краткий, полный, алармы) - эти картинки формируются системой раз в 30 (алармы) или 60 (полные) секунд, и автоматически переспрашиваются через заданное в картинке время. Этои картинки являются основными, поскольку они, во первых, показывают текущую ситуацию в сети (с небольшой, около полуминуты, задержкой), и во вторых, не слишком грузят сервер, так как формируются предварительно, а не в момент запроса. Кроме того, по кнопке [снимок] вычисляется и выдается картинка, описывающая состояние на момент запроса и не изменяющаяся.
Второй тип картинок - это то, что выдается в окне роутера (подробная выдача информации о роутере). Они формируются в момент запроса, и (в случае динамической картинки роутера) вычисляются заново каждые 30 или 60 секунд, загружая при этом сервер. Они предназначены для кратковременного анализа состояния какого то объекта.
Третий тип - это статические меню, выдаваемые при работе со статистикой и журналом объектов мониторинга; они формируются в момент выдачи, и не меняются динамически.
Для того, чтобы можно было определить актуальность той или иной информации, с краю основного меню система показывает текущее время (на той рабочей станции, где вызвана программа просмотра), а в каждой картинке, описывающей сеть или ее объекты, указывается тот момент времени, для которого была построена эта картинка; значительное расхождение этих времен означает обычно либо отказ программы мониторинга, либо остановку по каким то причинам процесса обновления экрана.
Итак, если нажать на одну из кнопок полный или алармы, получится следующий экран (тут приводится только маленькая часть его):
|
В первой строке имеется запись о времени, в которое получена эта информация. Это не момент формирования экрана, а именно тот момент, в который были получены данные мониторинга.
Дальше в одну или несколько колонок приведена информация об объектах мониторинга. Ее формат был описан выше, в комментариях к таблице 2, с небольшими поправками:
Оператор может получить подробную информацию, нажав мышкой на тот или иной элемент этой картинки. А именно:
Пример такой выдачи приведен выше в таблице 2. Ссылки работают, как и в предыдущем случае, за одним исключением - при нажатии на имя роутера вызывается меню для работы с журналом и статистикой по данному роутеру.
При нажатии на имя канала (второе поле слева в табличке) система выдает в окно LINKS основное меню для работы с журналом и статистикой по каналу. Аналогично, при нажатии на имя роутера в выдаче таб. 2, или при нажатии на статус роутера (таб. 3) вызывается основное меню по работе с журналом и статистикой по роутеру. Эти меню похожи, и выглядят так (на примере канала):
В формочке вверху приведена дата, за которую будет запрашиваться статистика по кнопкам _графики, сводка и zoom_. Дальше идет линейка меню, кнопки которого имеют следующие значения:
В случае роутера добавляются еще кнопки - [войти] (вызов команды входа на роутер), и [конфиг] - переход к работе с конфигурацией роутера (не реализовано).
Работа с журналом будет рассмотрена ниже (и отдельно). Некоторого комментария требуют графики, относящиеся к роутеру:
|
Первый график показывает загрузку процессора (у роутера) по времени, при этом, для того, чтобы было лучше видно моменты повышенной загрузки, загруз выше 70% показывается другим цветом.
Второй график показывает использование памяти. Поскольку интерес предствляет именно _оставшаяся свободной_ память, график смасштабирован так, чтобы максимальному значению соответствовало отсутствие свободной памяти (то есть аварийная ситуация), при этом истине соответствует именно остаток памяти (белый), а не занятая память (это значение выравнивается на 4, 8,16 или 32 Мб, в зависимости от максимума свободной памяти.
Синими отметками на графиках отмечаются падения роутера.
Особое значение имеет журнал (и связанные с ним тикеты), которые вызываются по кнопке меню [журнал]:
Комментарий к текущему состоянию()
|
Это меню является одним из основных при работе операторов. ОНо позволяет:
В первой табличке приводится описание объекта и его текущего состояния (вместе с причиной, вызвавшей это состояние). При этом состояние описывается с учетом существующих (если они есть) постоянных комментариев - так, если имеется постоянный комментарий, говорящий, что вместо состояния авария нужно установить состояние тяжелая авария, будет показано именно это, последнее состояние.
Далее приводится список имеющихся постоянных комментариев (в примере его нет). Принципиальное отличие постоянного комментария от комментария к событию только в том, что первый работает ДО, а второй ПОСЛЕ попадания события на страницу журнал, и первый предназначен в основном для системных администраторов.
Далее идут открытые в данный момент комментарии к событиям по данному объекту, а также (если нет комментария) заготовка для нового комментария к текущему состоянию (она же позволяет делать и записи в журнал без образования комментариев). Рассмотрим комментарий подробнее:
Прежде всего идет его заголовок (на белом фоне). Как правило, эти поля менять не нужно; они описывают объект, к которому относится комментарий, тип комментария, и состояние, к которому оно относится и которое будет (возможно) изменено в результате действия данного комментария. Системные администраторы, для создания или удаления постоянного комментария, должны поменять тип на постоянный комментарий, возможно, если нужно заменить состояние, которого нет в данный момент, придется менять и описание состояния (верхнее, на белом фоне, описывает исходное состояние, к которому применяется данный комментарий).
Далее идет состояние, которое требуется установить. Его использование определяется регламентом, а общая идея состоит в том, что состояния, на которые реагирует оператор (авария и тяжелая авария) должны заменяться на состояния, говорящие о результатах анализа этого события и его дальнейшей трактовки (то есть работа оператора - убирать с экрана красные и малиновые записи, попутно выясняя суть произошедшего, проводя записи в журнал, уведомляя соответствующие службы и принимая меры к устранению неисправностей). Например, если упавший канал сдан в проверку, целесообразно установить статус _авария устраняется_, если авария вызвана внешними причинами, то _неустранимая авария_, если данный физический объект не контролируется операторами, то _вне нашей компетенции_ и так далее - это зависит от конкретного регламента работы.
В следующей строке идет срок, на который устанавливается данный комментарий. Целесообразно ставить комментарии на ограниченный срок, чтобы по его истечении система напомнила о аварийном объекте, если авария не устранена. Если срок не задан, комментарий не будет иметь ограничений по сроку действия.
Отдельной кнопочкой задается режим _удалять или нет комментарий при возврате в нормальное состояние_. Если указан ответ да, то при возврате объекта в нормальное состояние данный комментарий будет удален, и например при повторном падении канала действовать не будет. Если указано нет, комментарий будет существовать, пока не истечет срок его действия.
Не рекомендуется создавать комментарии с неограниченным сроком действия и не уничтожающиеся при возврате нормального состояния, исключая случаи когда комментируется постоянно возникающее событие (например падение канала который клиент выключает на ночь).
Далее идет поле комментария - тут может быть написан произвольный текст. Рекомендуется всегда писать причину, по которой было принято решение создать данный комментарий к событию.
Последний ряд кнопок описывает, что же делать с созданным на экране комментарием дальше. Во первых, если была введена неверная информация, можно все сбросить кнопкой Чистить и начать сначала. Если вы работаете с ранее существовавшим комментарием, его можно удалить кнопкой Удалить. Для записи нового комментария служит кнопка Записать (если комментарий уже был, то она будет выглядеть как Заменить). И наконец, если нужно только сделать запись в журнале, но не создавать комментарий (то есть не нужно менятьь состояние объекта), то это можно сделать кнопкой Только запись в журнал.
Для редактирования или удаления постоянного комментария нужно явно установить в форме тип _постоянный комментарий_, статус, после чего кнопки Записать и Удалить выполнять запись или удаление постоянного комментария.
На самом деле в системе имеется много журналов. Кроме журналов, связанных с объектами (по одному журналу на объект мониторинга), имеется еще системный журнал - по одному журналу на каждый день. При записи в журнал объекта копия записи пишется в системный журнал, что позволяет проанализировать как работу объекта в течении длительного времени, так и работу всей системы (и операторов) за каждый конкретный день.
Системный журнал вызывается из головного меню кнопкой [журнал] и выглядит примерно так:
|
Записи в системном журнале дублируют записи в журналах объектов, кроме того, имеется возможность внести сюда произвольную запись, не связанную с конкретным объектом (кнопка меню [записать]). Оба журнала (и системный, и журналы объектов) могут быть представлены как в сыром, неудобочитаемом виде (кнопка [сырой формат]), так и в удобной форме, без служебных записей (кнопка [просмотр]). Кроме того. если в журнале нажать на имя объекта, система попытается найти его в мониторинге и выдать его параметры на экран, а дальше можно попасть в меню статистики по данному объекту.
В данный момент возможен поиск только по базе данных канальной информации (LINKS), он вызывается из основного меню кнопкой [Поиск].Поиск возможен по нескольким параметрам, в частности, по городу, названию узла или другим атрибутам. Меню поиска выдается в окно
В данном документе описана версия системы мониторинга 1.1. Правила использования данной системы определяются РЕГЛАМЕНТОМ, который зависит от требований конкретной сети и организации службы операторов. Общие рекомендации, однако, остаются одинаковыми: