Подскажите пожалуйста. На станции периодически появляются инциденты
Код
27/06/15 12:15:18 000003M|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 1451, position (0,13,254)
27/06/15 12:15:18 000003M|---/--/-/---|=3:1607=01.0d.0d.00.00.00.00.0d.04.fe.f9.00.15.ff.ff
Является ли увеличение частоты данных инцидентов признаком того, что базы на двухпроцессорной системе разъехались и необходимо выполнять клонирование?
Спрашиваю потому, что недавно переводили работу bascul-ом на резервный процессор, не обратив внимание на наличие данных инцидентов, после чего приличное кол-во трубок DECT отвалились (просто белый экран на трубках). После отключения трубок пришлось их регистрировать заново. Причем что интересно, команда dectrm для них не отрабатывала, ссылаясь на то что аппарат не является cordless.
Вопрос был про базы данных - ответ тоже про базы данных (подразумевается, что версии софта и патчи - одинаковые). Вот для того, чтобы не было сомнений в разбеге баз данных и делается клонирование баз данных.
данный инцидент не имеет никакого отношения к клонированию. Он говорит что в 0-13 вставлена плата, а в менеджменте ее нет. Выдерните платы, которые не прописаны или пропишите вставленные. Клонирование полезно делать при рестарте (останавливаем stand-by, рестартуем main, после запуска поднимает второй процессор в дубль через клонирование). Предполагая что рестарты редки (например 1 раз в год). Ну и естественно делаем клонирование, когда пойдут инциденты со stand-by - про неизвестный терминал и т.п.
vad пишет: Ну и естественно делаем клонирование, когда пойдут инциденты со stand-by - про неизвестный терминал и т.п.
А почему же все-таки базы разъезжаются когда никаких перезагрузок не выполняется? Раньше у нас межпроцессорный обмен был организован через C1-линк и периодически всплывали инциденты о перегрузке данного линка - в этом случае все понятно. Поменяли на Ethernet. Казалось бы, полосы предостаточно. Что же мешает поддерживать когерентность?
Vladimir Shushkov пишет: Что же мешает поддерживать когерентность?
Как правило ничего не мешает. Особенно если менеджмента не много. Были станции - годами работавшие. А вообще по жизни: - ошибки софта - неаккуратное обслуживание - осознанно вредные действия персонала.
Я считаю - надо анализировать инциденты и избавляться от ненужных (зачем вы вставили плату в 0-13 не прописав ее в менеджмент?) Поднимите время по NTP (на обоих процессорах). Процессора рекомендуется включить в отдельный VLAN, чтоб всякие броадкасты в сети не мешали им жить и т.п. На тему последнего (вредные действия) - была софтинка 4730i, там был хороший tool для просмотра сети. Написано - что им нельзя пользоваться в обычной жизни, он отъедает память, он для инсталлятора при запуске сети - но кого это останавливало.
Спасибо за информацию! Действительно в 13-м слоте установлена плата NDDI2, которая не прописана на станции. С этим все понятно. Но вот обратил внимание, что помимо указанных инцидентов со ссылкой на 13-й слот, есть очень много аналогичных, но уже ссылающихся на несуществующий 28-й слот (используем полку ACT-28).
Код
01/07/15 17:56:47 000003S|---/--/-/---|=0:1603=IO1 driver error, wrong telephone msg received, line 6329, position (0,28,144)
01/07/15 17:56:47 000003S|---/--/-/---|=3:1607=ff.03.23.00.0f.0f.00.1c.08.90.54.01.9b.b7.9a
О чем может говорить это сообщение?
И еще, если позволите, вопрос: указанные инциденты, как правило, сопровождаются инцидентами
Vladimir Shushkov пишет: ссылающихся на несуществующий 28-й слот (используем полку ACT-28). И еще, если позволите, вопрос: указанные инциденты, как правило, сопровождаются инцидентами Код 01/07/15 17:31:28 000003M|000/27/-/---|=2:3720=C1 Access Pb INTIP3[INTOF/INT2B]Hexa C1Flag:f1,fe[Time],HostFlg:1e,0,HstST:0,LINE:0,0
28-й слот - это наследие прошлого (когда процессор мог состоять из платы процессора и платы ввода-вывода). 28-й слот - это общение с модулем IO который сейчас является частью процессорной платы. Должны пропадать когда уберете лишние платы и инциденты типа вашего.
Инцидент 3720 - на плате детектируется проблема с чипом С1 (основной чип, через который идет обмен между платами и в нем осуществляется TDM коммутация. Рекомендуется поменять плату.
Инцидент 3720 - на плате детектируется проблема с чипом С1 (основной чип, через который идет обмен между платами и в нем осуществляется TDM коммутация. Рекомендуется поменять плату.
1. Правильно ли понимаю, что речь идет об аппаратной проблеме конкретной процессорной платы, а не всей полки в целом? Т.е. чисто гипотетически, при переходе на второй процессор инцидент должен перестать фиксироваться?
2. Есть также в наличии выведенная из эксплуатации станция. Могу попробовать поставить CPU7-2 оттуда. Знаю, что это повлечет за собой нарушение работы подсистемы лицензий. Но можно ли попробовать некоторое время поработать в таком, триальном режиме, без потери функционала?
3. В очередной раз пробовал выполнить клонирование баз на резервный CPU. При клонировании опять появилось около 20 инцидентов
Код
06/06/15 11:23:54 000003S|000/15/-/---|=3:2040=Std By CPU. Bad term type = DECT_BS instead of POS_NUM Msg 7 n_term 0
Vad в прошлый раз сообщил, что возможно я не так выполнил клонирование. Но где я мог ошибиться? Перезагрузил резервный CPU без старта телефонии, зашел в swinst, CPU cloning и т.д. Выполнял клонирование только базы, без linux данных. После выполнения операции перезагрузка резервного CPU со стартом телефонии. Во время выполнения всех манипуляций на резервном CPU основной продолжал работать все время.
Может ли этот инцидент подтверждать наличие аппаратной проблемы с C1 чипом?
1. Не процессорной, а стоящей в 0-27 3. Не знаю, что у вас с клонированием. На мой взгляд - вам надо рестартовать станцию (остановить резервный, рестартовать основной, потом сделать клонирование).
Возможно вы в свое время не рестартовали станцию при проблемах, а делали bascul. Тогда у вас могла не просто база разойтись между процессорами, а разойтись база - на диске и рабочая в ОЗУ.
Перевел работу на резервный канал, плату в позиции 0-8 - стала фиксироваться аналогичная ошибка, только уже со ссылкой на позицию 0-8. Неужели обе платы неисправны?
(3)xa000000> config all
Thu Apr 16 13:04:20 AST 2015
Crystal 0 :
+-------------------------------------------------------------------+
| Cr | cpl| cpl type | hw type | cpl state | coupler ID |
|----|----|------------|-----------|--------------|-----------------|
| 0 | 0 | NPRAE|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 1 | eZ32|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 2 | NPRAE|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 3 | eZ32_2|---------- |ONLY OPS FILE | BAD PCMS CODE |
| 0 | 4 | GPA2|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 6 | CPU7_STEP2|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 7 | IO2N|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 8 | INTOF2A|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 9 | eUA32|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 10 | eZ32|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 11 | NPRAE|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 12 | eZ32|---------- | REG NOT INIT | BAD PCMS CODE |
| 0 | 15 | DECT8|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 17 | INTIPA| INT-IP | IN SERVICE | BAD PCMS CODE |
| 0 | 19 | NPRAE|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 20 | CPU7_STEP2|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 21 | IO2N|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 22 | BRA2|---------- | IN SERVICE | BAD PCMS CODE |
| 0 | 24 | INTIPA| INT-IP | IN SERVICE | BAD PCMS CODE |
| 0 | 26 | RMA|---------- |ONLY MAO FILE | BAD PCMS CODE |
| 0 | 27 | INTOF2A|---------- | IN SERVICE | BAD PCMS CODE |
+-------------------------------------------------------------------+
--- Inter Crystal Topology ---
+-------------------------------------------------------------------------+
| CR | CPL Type Role Free/Tot Role Type CPL | CR |
|-------------------------------------------------------------------------|
|000 | 08 -INTOF2A (INT_A ) === 78/78 === ( MAIN) INTOF2B - 20 |002 |
|-------------------------------------------------------------------------|
|000 | 27 -INTOF2A (INT_A ) === 77/78 === (STANDBY) INTOF2B - 06 |002 |
|-------------------------------------------------------------------------|
> Reference rack not set
Crystal 1 :
+-------------------------------------------------------------------+
| Cr | cpl| cpl type | hw type | cpl state | coupler ID |
|----|----|------------|-----------|--------------|-----------------|
| 1 | 0 | UA_FICTIF| | IN SERVICE | NO PCMS CODE |
+-------------------------------------------------------------------+
Crystal 2 :
+-------------------------------------------------------------------+
| Cr | cpl| cpl type | hw type | cpl state | coupler ID |
|----|----|------------|-----------|--------------|-----------------|
| 2 | 1 | eZ32_2|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 6 | INTOF2B|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 10 | eZ32_2|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 12 | eZ32_2|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 15 | NPRAE|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 17 | eUA32|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 20 | INTOF2B|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 22 | NDDI2|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 24 | eUA32|---------- | IN SERVICE | BAD PCMS CODE |
| 2 | 26 | BRA2|---------- | IN SERVICE | BAD PCMS CODE |
+-------------------------------------------------------------------+
--- Inter Crystal Topology ---
+-------------------------------------------------------------------------+
| CR | CPL Type Role Free/Tot Role Type CPL | CR |
|-------------------------------------------------------------------------|
|002 | 06 -INTOF2B (STANDBY) === 77/78 === ( INT_A) INTOF2A - 27 |000 |
|-------------------------------------------------------------------------|
|002 | 20 -INTOF2B (MAIN ) --- 78/78 --- ( INT_A) INTOF2A - 08 |000 |
|-------------------------------------------------------------------------|
Crystal 3 :
+-------------------------------------------------------------------+
| Cr | cpl| cpl type | hw type | cpl state | coupler ID |
|----|----|------------|-----------|--------------|-----------------|
| 3 | 0 | eZ32_2|---------- | IN SERVICE | BAD PCMS CODE |
| 3 | 2 | eUA32|---------- | IN SERVICE | BAD PCMS CODE |
| 3 | 4 | NDDI2|---------- | IN SERVICE | BAD PCMS CODE |
| 3 | 6 | INTIP3B| INT-IP3 | IN SERVICE | BAD PCMS CODE |
+-------------------------------------------------------------------+
--- Inter Crystal Topology ---
+-------------------------------------------------------------------------+
| CR | CPL Type Role Free/Tot Role Type CPL | CR |
|-------------------------------------------------------------------------|
|003 | 06 -INTIP3B (MAIN ) --- 7/7 --- ( INT_A) INTIP3A - 01 |019 |
|-------------------------------------------------------------------------|
Crystal 19 :
+-------------------------------------------------------------------+
| Cr | cpl| cpl type | hw type | cpl state | coupler ID |
|----|----|------------|-----------|--------------|-----------------|
| 19 | 0 | FICTIF| | REG NOT INIT | NO PCMS CODE |
| 19 | 1 | INTIP3A| | IN SERVICE | NO PCMS CODE |
| 19 | 2 | INTIP3A| | OUT OF SERV | NO PCMS CODE |
+-------------------------------------------------------------------+
--- Inter Crystal Topology ---
+-------------------------------------------------------------------------+
| CR | CPL Type Role Free/Tot Role Type CPL | CR |
|-------------------------------------------------------------------------|
|019 | 01 -INTIP3A (INT_A ) === 7/7 === ( MAIN) INTIP3B - 06 |003 |
|-------------------------------------------------------------------------|
(3)xa000000>
P.S. Возможно эти события связаны с возникающими
Код
07/04/10 10:51:01 000001M|00/05/-/---|=0:3660=status of 8KFS (0 is OK, 1 is KO):
0
?? О них я уже писал в данном форуме, но, к сожалению, до сих порт так и не удалось их побороть. Более того, если раньше подобные инциденты фиксировались раз в 1-2 минуты, то сейчас ситуация значительно ухудшилась - раз в 5-10 секунд. Выполнял проверку - вытаскивал городской поток из станции (от которого мы берем синхру) и инциденты переставали появляться. Вот планируем проверять качество E1 линии от ГТС.
Vladimir Shushkov пишет: О них я уже писал в данном форуме, но, к сожалению, до сих порт так и не удалось их побороть. Более того, если раньше подобные инциденты фиксировались раз в 1-2 минуты, то сейчас ситуация значительно ухудшилась - раз в 5-10 секунд. Выполнял проверку - вытаскивал городской поток из станции (от которого мы берем синхру) и инциденты переставали появляться. Вот планируем проверять качество E1 линии от ГТС.
при проблемах с синхронизацией - велика получить разные проблемы с INTOF. Если при выдергивании/вставлении городского потока исчезают/появляются ошибки с синхрой - надо разбираться с синхрой. Основные проблемы когда у вас не прямо порт от городской АТС, а организован неправильно: 1) например взять модемы Алкатель, но LT часть поставить у себя, а NT на ГТС - удобно будет управлять, но будут проблемы с синхрой 2) получить поток по SDH где не настроен ретайминг 3) получить поток через мультиплексор, забыв, что кроме синхронизации Алкательки от мультиплексора у вас - ваша часть мультиплексора должна синхронизироваться от части стоящей на ГТС, а та от ГТС.