Форум. ООО «ИНТЕРСИСТ-Сервис».

Уважаемые дамы и господа! Для вас сохранен старый форум по адресу http://forum.intersyst.ru

RSS

Синхронизация баз процессоров и инциденты 1603 и 1607, Есть ли связь?

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

29.06.2015 12:50:32

Здравствуйте!

Подскажите пожалуйста. На станции периодически появляются инциденты

Код

27/06/15 12:15:18 000003M|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 1451, position (0,13,254)

27/06/15 12:15:18 000003M|---/--/-/---|=3:1607=01.0d.0d.00.00.00.00.0d.04.fe.f9.00.15.ff.ff

Является ли увеличение частоты данных инцидентов признаком того, что базы на двухпроцессорной системе разъехались и необходимо выполнять клонирование?

Спрашиваю потому, что недавно переводили работу bascul-ом на резервный процессор, не обратив внимание на наличие данных инцидентов, после чего приличное кол-во трубок DECT отвалились (просто белый экран на трубках). После отключения трубок пришлось их регистрировать заново. Причем что интересно, команда dectrm для них не отрабатывала, ссылаясь на то что аппарат не является cordless.

Спасибо!

etc

Editor

Сообщений: 1488 Баллов: 2380 Регистрация: 26.11.2009

29.06.2015 13:48:09

Цитата

Vladimir Shushkov пишет:
Здравствуйте!

Подскажите пожалуйста. На станции периодически появляются инциденты

Код


27/06/15 12:15:18 000003M|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 1451, position (0,13,254)



27/06/15 12:15:18 000003M|---/--/-/---|=3:1607=01.0d.0d.00.00.00.00.0d.04.fe.f9.00.15.ff.ff

Является ли увеличение частоты данных инцидентов признаком того, что базы на двухпроцессорной системе разъехались и необходимо выполнять клонирование?

Да, является. Клонирование нужно делать каждый раз после перезагрузки.

Vlad 46

User

Сообщений: 590 Баллов: 943 Регистрация: 01.12.2009

29.06.2015 17:33:00

[/QUOTE] Да, является. Клонирование нужно делать каждый раз после перезагрузки.[/QUOTE]

в этом есть сомнение,
обычно делают,когда разные базы данных, апликации и т.д.(причины разные)
можно клонировать практически все, кроме BIOS

Изменено: Vlad 46 - 29.06.2015 17:34:34

etc Editor Сообщений: 1488 Баллов: 2380 Регистрация: 26.11.2009	#4 29.06.2015 22:04:08 Вопрос был про базы данных - ответ тоже про базы данных (подразумевается, что версии софта и патчи - одинаковые). Вот для того, чтобы не было сомнений в разбеге баз данных и делается клонирование баз данных.

vad

Editor

Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009

30.06.2015 16:16:23

данный инцидент не имеет никакого отношения к клонированию. Он говорит что в 0-13 вставлена плата, а в менеджменте ее нет.
Выдерните платы, которые не прописаны или пропишите вставленные.
Клонирование полезно делать при рестарте (останавливаем stand-by, рестартуем main, после запуска поднимает второй процессор в дубль через клонирование). Предполагая что рестарты редки (например 1 раз в год).
Ну и естественно делаем клонирование, когда пойдут инциденты со stand-by - про неизвестный терминал и т.п.

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

30.06.2015 20:34:07

Коллеги, спасибо большое за информацию!

Цитата
vad пишет: Ну и естественно делаем клонирование, когда пойдут инциденты со stand-by - про неизвестный терминал и т.п.

А почему же все-таки базы разъезжаются когда никаких перезагрузок не выполняется? Раньше у нас межпроцессорный обмен был организован через C1-линк и периодически всплывали инциденты о перегрузке данного линка - в этом случае все понятно. Поменяли на Ethernet. Казалось бы, полосы предостаточно. Что же мешает поддерживать когерентность?

vad

Editor

Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009

01.07.2015 07:47:45

Цитата
Vladimir Shushkov пишет: Что же мешает поддерживать когерентность?

Как правило ничего не мешает. Особенно если менеджмента не много. Были станции - годами работавшие.
А вообще по жизни:
- ошибки софта
- неаккуратное обслуживание
- осознанно вредные действия персонала.

Я считаю - надо анализировать инциденты и избавляться от ненужных (зачем вы вставили плату в 0-13 не прописав ее в менеджмент?)
Поднимите время по NTP (на обоих процессорах).
Процессора рекомендуется включить в отдельный VLAN, чтоб всякие броадкасты в сети не мешали им жить
и т.п.
На тему последнего (вредные действия) - была софтинка 4730i, там был хороший tool для просмотра сети. Написано - что им нельзя пользоваться в обычной жизни, он отъедает память, он для инсталлятора при запуске сети - но кого это останавливало.

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

02.07.2015 00:50:41

Уважаемый, Vad, Коллеги!

Спасибо за информацию! Действительно в 13-м слоте установлена плата NDDI2, которая не прописана на станции. С этим все понятно. Но вот обратил внимание, что помимо указанных инцидентов со ссылкой на 13-й слот, есть очень много аналогичных, но уже ссылающихся на несуществующий 28-й слот (используем полку ACT-28).

Код

01/07/15 17:56:47 000003S|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 6329, position (0,28,144)
01/07/15 17:56:47 000003S|---/--/-/---|=3:1607=ff.03.23.00.0f.0f.00.1c.08.90.54.01.9b.b7.9a

О чем может говорить это сообщение?

И еще, если позволите, вопрос: указанные инциденты, как правило, сопровождаются инцидентами

Код
01/07/15 17:31:28 000003M\|000/27/-/---\|=2:3720=C1 Access Pb INTIP3[INTOF/INT2B]Hexa C1Flag:f1,fe[Time],HostFlg:1e,0,HstST:0,LINE:0,0

Нет ли у Вас какой-либо информации по данному инциденту?

Огромное спасибо!

Изменено: Vladimir Shushkov - 02.07.2015 00:51:12

vad

Editor

Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009

06.07.2015 09:31:45

Цитата

Vladimir Shushkov пишет:
ссылающихся на несуществующий 28-й слот (используем полку ACT-28).
И еще, если позволите, вопрос: указанные инциденты, как правило, сопровождаются инцидентами
Код
01/07/15 17:31:28 000003M|000/27/-/---|=2:3720=C1 Access Pb INTIP3[INTOF/INT2B]Hexa C1Flag:f1,fe[Time],HostFlg:1e,0,HstST:0,LINE:0,0

28-й слот - это наследие прошлого (когда процессор мог состоять из платы процессора и платы ввода-вывода). 28-й слот - это общение с модулем IO который сейчас является частью процессорной платы. Должны пропадать когда уберете лишние платы и инциденты типа вашего.

Инцидент 3720 - на плате детектируется проблема с чипом С1 (основной чип, через который идет обмен между платами и в нем осуществляется TDM коммутация. Рекомендуется поменять плату.

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

#10

07.07.2015 00:03:30

Цитата
Инцидент 3720 - на плате детектируется проблема с чипом С1 (основной чип, через который идет обмен между платами и в нем осуществляется TDM коммутация. Рекомендуется поменять плату.

1. Правильно ли понимаю, что речь идет об аппаратной проблеме конкретной процессорной платы, а не всей полки в целом? Т.е. чисто гипотетически, при переходе на второй процессор инцидент должен перестать фиксироваться?

2. Есть также в наличии выведенная из эксплуатации станция. Могу попробовать поставить CPU7-2 оттуда. Знаю, что это повлечет за собой нарушение работы подсистемы лицензий. Но можно ли попробовать некоторое время поработать в таком, триальном режиме, без потери функционала?

3. В очередной раз пробовал выполнить клонирование баз на резервный CPU. При клонировании опять появилось около 20 инцидентов

Код
06/06/15 11:23:54 000003S\|000/15/-/---\|=3:2040=Std By CPU. Bad term type = DECT_BS instead of POS_NUM Msg 7 n_term 0

Vad в прошлый раз сообщил, что возможно я не так выполнил клонирование. Но где я мог ошибиться? Перезагрузил резервный CPU без старта телефонии, зашел в swinst, CPU cloning и т.д. Выполнял клонирование только базы, без linux данных. После выполнения операции перезагрузка резервного CPU со стартом телефонии. Во время выполнения всех манипуляций на резервном CPU основной продолжал работать все время.

Может ли этот инцидент подтверждать наличие аппаратной проблемы с C1 чипом?

Спасибо!

vad

Editor

Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009

#11

07.07.2015 08:50:56

1. Не процессорной, а стоящей в 0-27
3. Не знаю, что у вас с клонированием. На мой взгляд - вам надо рестартовать станцию (остановить резервный, рестартовать основной, потом сделать клонирование).

Возможно вы в свое время не рестартовали станцию при проблемах, а делали bascul. Тогда у вас могла не просто база разойтись между процессорами, а разойтись база - на диске и рабочая в ОЗУ.

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

#12

10.07.2015 00:54:58

Цитата
vad пишет: 1. Не процессорной, а стоящей в 0-27

Перевел работу на резервный канал, плату в позиции 0-8 - стала фиксироваться аналогичная ошибка, только уже со ссылкой на позицию 0-8. Неужели обе платы неисправны?

Спасибо!

vad Editor Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009	#13 10.07.2015 06:40:45 Что у вас там - INTOF? покажите config 0

Vladimir Shushkov

User

Сообщений: 189 Баллов: 151 Регистрация: 12.05.2011

#14

10.07.2015 10:03:56

Вот начинка станции:

Код

(3)xa000000> config all 

Thu Apr 16 13:04:20 AST 2015 


Crystal 0 : 

   +-------------------------------------------------------------------+ 
   | Cr | cpl| cpl type   | hw type   |  cpl  state  |  coupler ID     | 
   |----|----|------------|-----------|--------------|-----------------| 
   |  0 |  0 |       NPRAE|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  1 |        eZ32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  2 |       NPRAE|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  3 |      eZ32_2|---------- |ONLY OPS FILE |   BAD PCMS CODE | 
   |  0 |  4 |        GPA2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  6 |  CPU7_STEP2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  7 |        IO2N|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  8 |     INTOF2A|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 |  9 |       eUA32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 10 |        eZ32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 11 |       NPRAE|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 12 |        eZ32|---------- | REG NOT INIT |   BAD PCMS CODE | 
   |  0 | 15 |       DECT8|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 17 |      INTIPA|    INT-IP |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 19 |       NPRAE|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 20 |  CPU7_STEP2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 21 |        IO2N|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 22 |        BRA2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 24 |      INTIPA|    INT-IP |   IN SERVICE |   BAD PCMS CODE | 
   |  0 | 26 |         RMA|---------- |ONLY MAO FILE |   BAD PCMS CODE | 
   |  0 | 27 |     INTOF2A|---------- |   IN SERVICE |   BAD PCMS CODE | 
   +-------------------------------------------------------------------+ 

   --- Inter Crystal Topology --- 

   +-------------------------------------------------------------------------+ 
   | CR | CPL Type    Role          Free/Tot         Role    Type   CPL | CR | 
   |-------------------------------------------------------------------------| 
   |000 | 08 -INTOF2A (INT_A  )  ===  78/78 ===  (   MAIN) INTOF2B - 20 |002 | 
   |-------------------------------------------------------------------------| 
   |000 | 27 -INTOF2A (INT_A  )  ===  77/78 ===  (STANDBY) INTOF2B - 06 |002 | 
   |-------------------------------------------------------------------------| 

> Reference rack not set 


Crystal 1 : 

   +-------------------------------------------------------------------+ 
   | Cr | cpl| cpl type   | hw type   |  cpl  state  |  coupler ID     | 
   |----|----|------------|-----------|--------------|-----------------| 
   |  1 |  0 |   UA_FICTIF|           |   IN SERVICE |    NO PCMS CODE | 
   +-------------------------------------------------------------------+ 


Crystal 2 : 

   +-------------------------------------------------------------------+ 
   | Cr | cpl| cpl type   | hw type   |  cpl  state  |  coupler ID     | 
   |----|----|------------|-----------|--------------|-----------------| 
   |  2 |  1 |      eZ32_2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 |  6 |     INTOF2B|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 10 |      eZ32_2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 12 |      eZ32_2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 15 |       NPRAE|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 17 |       eUA32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 20 |     INTOF2B|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 22 |       NDDI2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 24 |       eUA32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  2 | 26 |        BRA2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   +-------------------------------------------------------------------+ 

   --- Inter Crystal Topology --- 

   +-------------------------------------------------------------------------+ 
   | CR | CPL Type    Role          Free/Tot         Role    Type   CPL | CR | 
   |-------------------------------------------------------------------------| 
   |002 | 06 -INTOF2B (STANDBY)  ===  77/78 ===  (  INT_A) INTOF2A - 27 |000 | 
   |-------------------------------------------------------------------------| 
   |002 | 20 -INTOF2B (MAIN   )  ---  78/78 ---  (  INT_A) INTOF2A - 08 |000 | 
   |-------------------------------------------------------------------------| 

Crystal 3 : 

   +-------------------------------------------------------------------+ 
   | Cr | cpl| cpl type   | hw type   |  cpl  state  |  coupler ID     | 
   |----|----|------------|-----------|--------------|-----------------| 
   |  3 |  0 |      eZ32_2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  3 |  2 |       eUA32|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  3 |  4 |       NDDI2|---------- |   IN SERVICE |   BAD PCMS CODE | 
   |  3 |  6 |     INTIP3B|   INT-IP3 |   IN SERVICE |   BAD PCMS CODE | 
   +-------------------------------------------------------------------+ 

   --- Inter Crystal Topology --- 

   +-------------------------------------------------------------------------+ 
   | CR | CPL Type    Role          Free/Tot         Role    Type   CPL | CR | 
   |-------------------------------------------------------------------------| 
   |003 | 06 -INTIP3B (MAIN   )  ---   7/7  ---  (  INT_A) INTIP3A - 01 |019 | 
   |-------------------------------------------------------------------------| 

Crystal 19 : 

   +-------------------------------------------------------------------+ 
   | Cr | cpl| cpl type   | hw type   |  cpl  state  |  coupler ID     | 
   |----|----|------------|-----------|--------------|-----------------| 
   | 19 |  0 |      FICTIF|           | REG NOT INIT |    NO PCMS CODE | 
   | 19 |  1 |     INTIP3A|           |   IN SERVICE |    NO PCMS CODE | 
   | 19 |  2 |     INTIP3A|           |  OUT OF SERV |    NO PCMS CODE | 
   +-------------------------------------------------------------------+ 

   --- Inter Crystal Topology --- 

   +-------------------------------------------------------------------------+ 
   | CR | CPL Type    Role          Free/Tot         Role    Type   CPL | CR | 
   |-------------------------------------------------------------------------| 
   |019 | 01 -INTIP3A (INT_A  )  ===   7/7  ===  (   MAIN) INTIP3B - 06 |003 | 
   |-------------------------------------------------------------------------| 
(3)xa000000>

P.S. Возможно эти события связаны с возникающими

Код
07/04/10 10:51:01 000001M\|00/05/-/---\|=0:3660=status of 8KFS (0 is OK, 1 is KO): 0

??
О них я уже писал в данном форуме, но, к сожалению, до сих порт так и не удалось их побороть. Более того, если раньше подобные инциденты фиксировались раз в 1-2 минуты, то сейчас ситуация значительно ухудшилась - раз в 5-10 секунд. Выполнял проверку - вытаскивал городской поток из станции (от которого мы берем синхру) и инциденты переставали появляться. Вот планируем проверять качество E1 линии от ГТС.

vad

Editor

Сообщений: 4707 Баллов: 7530 Регистрация: 27.11.2009

#15

10.07.2015 10:22:22

Цитата

Vladimir Shushkov пишет:
О них я уже писал в данном форуме, но, к сожалению, до сих порт так и не удалось их побороть. Более того, если раньше подобные инциденты фиксировались раз в 1-2 минуты, то сейчас ситуация значительно ухудшилась - раз в 5-10 секунд. Выполнял проверку - вытаскивал городской поток из станции (от которого мы берем синхру) и инциденты переставали появляться. Вот планируем проверять качество E1 линии от ГТС.

при проблемах с синхронизацией - велика получить разные проблемы с INTOF. Если при выдергивании/вставлении городского потока исчезают/появляются ошибки с синхрой - надо разбираться с синхрой.
Основные проблемы когда у вас не прямо порт от городской АТС, а организован неправильно:
1) например взять модемы Алкатель, но LT часть поставить у себя, а NT на ГТС - удобно будет управлять, но будут проблемы с синхрой
2) получить поток по SDH где не настроен ретайминг
3) получить поток через мультиплексор, забыв, что кроме синхронизации Алкательки от мультиплексора у вас - ваша часть мультиплексора должна синхронизироваться от части стоящей на ГТС, а та от ГТС.