ホーム - ブログ - 詳細

ネットワーク障害のトラブルシューティング方法

スイッチはローカルエリアネットワークの重要なネットワークデバイスであり、その運用ステータスはクライアントシステムのインターネットアクセスステータスに密接に関連していることがわかっています。
 
ただし、実際の作業では、スイッチのステータスは外部要因の影響を容易に受け入れ、ローカルエリアネットワークにさまざまなネットワーク障害をもたらします。
 
安定したネットワーク操作を確保するには、適切に管理および維持する必要がありますスイッチスイッチの障害を防ぐための毎日の作業で。
 
この記事では、ソケットの障害のトラブルシューティングで上級の低電圧専門家の経験を語ります。建物内のローカルエリアネットワークのメンテナンス中に、彼は物理的な接続が不適切であるためにフロアスイッチをpingできなかった障害に遭遇しました。このネットワーク障害のトラブルシューティングプロセスは、非常に困難であることが判明しました。
 
この障害は比較的典型的であり、トラブルシューティングアプローチを参照できるため、すべての人の利益のためにここで共有されます。
 

1。断層シー​​ン:

 
当時私が担当していたオフィスビルは、いくつかの企業で構成されていました。各企業が独立したインターネットにアクセスできるようにし、インターネットステータスが他の企業の影響を受けないようにするために、建物のネットワークのコアスイッチとしてルータースイッチを選択しました。
 
同時に、スイッチ上の各ユニットに対して異なる仮想作業サブネットがセットアップされました。
 
各ユニットは異なる階にあり、各フロアの企業の数はさまざまであるため、一部のフロアには2つまたは3つのユニットがありましたが、他の階には5つまたは6つのユニットがありました。
 
さまざまなフロアのユニットの作業サブネットはすべて、対応するフロアスイッチを介して建物のローカルエリアネットワークに接続され、建物のネットワークのハードウェアファイアウォールを介してインターネットネットワークにアクセスしました。
 
ネットワーク管理の効率を改善するために、ネットワーク管理者は通常、リモート接続を介してスイッチを管理および維持します。
 
しかし、ある朝、私が仕事を始めて、ローカルエリアネットワークコアスイッチのさまざまなスイッチポートの作業ステータスをスキャンして診断していたとき、スイッチポートの1つがダウン状態にあることがわかりました。
 
そこで、ネットワーク管理レコードを確認したところ、このポートへの接続が5階の2階のスイッチからのものであることがわかりました。
 
フロアスイッチにリモートでログインしようとしたとき、私は正常にログインできないことがわかりました。 Pingコマンドを使用してスイッチのIPアドレスをテストすると、「リクエストタイムアウト」を返しました。
 
なぜ誰も障害を報告しなかったのか疑問に思っていたとき、電話が予想通りに鳴り、確かに、5階のユーザーは次々とネットワークの障害を報告し始めました。
 
上記の障害の症状に基づいて、フロアスイッチに予期しない問題があるのではないかと疑っていました。
 
そこで、私は故障したスイッチのシーンに急いで行き、電源を切断し、しばらく待ってから、電源を再接続して再起動しました。
 
再起動操作が完了した後、Pingコマンドを使用してスイッチのIPアドレスを再度テストしました。
 
今回は、返された結果は正常であり、リモートログイン操作はスムーズに進行する可能性があります。
 
しかし、30分後、故障したスイッチは再び同じ障害症状を示し、PINGコマンドでテストしたとき、再び異常な結果を返しました。
 
その後、不安を感じて、私は再起動とテストのプロセスを繰り返しましたが、故障したスイッチを正常にpingすることができないことがわかりました。
 

2。詳細なトラブルシューティング:

 
繰り返し再起動は問題を解決しなかったため、このタイプの障害がネットワーク管理プロセスでしばしば発生することを考えると、障害の原因がより複雑であると推定しました。
 
そこで、以下のアプローチに従って、詳細なトラブルシューティングを実施しました。
 
建物ネットワーク全体の5階の1階のスイッチのみがこの現象を示したことを考慮して、私は最初、それがその床スイッチ自体の問題によって引き起こされる可能性があると判断しました。
 
障害の原因を正確に識別するために、障害のあるスイッチを適切に機能するスイッチに置き換え、障害がまだ持続しているかどうかを観察することを計画しました。
 
同時に、疑わしい問題のあるスイッチを独立したネットワーク環境に接続します。

info-500-333

30分のテストと観察の後、分離されたネットワーク環境に接続されている故障したスイッチが正常に機能しており、そのネットワーク環境でIPアドレスがpingされる可能性があることがわかりました。
 
ただし、新しく交換されたスイッチは、建物ネットワークに接続されている場合、正常にpingを作成することはできませんでした。
 
これらの観察に基づいて、私は5階のスイッチ自体が問題を抱えている可能性はほとんど無視できると結論付けました。故障したスイッチ自身のステータスに関連する要因を除外した後、建物ネットワーク全体のネットワーク構造とステータスをレビューしました。
 
建物の他のフロアのユーザーは通常、インターネットにアクセスできますが、5階のユーザーの一部はできませんでした。
 
5階のネットワーキング情報をチェックすると、その階に5つのユニットがあることがわかりました。当時、ネットワーク管理者は5階に2階のスイッチを設定し、カスケード構成でそれらを接続していました。
 
さらに、これら2つのスイッチに5つの仮想作業サブネットが作成され、各ユニットがそれぞれの仮想サブネットで独立して動作できるようにしました。
 
コアスイッチの対応するポートはすでにダウンしていたため、理論的には、5階のすべてのユニットがインターネットにアクセスできないはずです。では、なぜ一部のユーザーが障害を報告していたのですか?
 
仕事を始める時が来たら、すぐにネットワーク障害を報告していないいくつかの企業に連絡しました。彼らの応答は、彼らが異常なネットワークアクセスを発見したばかりで、建物のネットワーク管理者から助けを求めようとしているということでした。
 
その場合、5階のすべてのユニットがインターネットにアクセスできないはずです。したがって、障害の原因は、これらのユニットの仮想作業サブネット内にある必要があります。
 
5階の5つのユニットへのトラブルシューティングの範囲を絞り込んだ後、5階の特定のスイッチの機器を再起動すると、ネットワーク障害が一時的に回復する可能性があると考えました。
 
ただし、30分後、同じネットワーク障害が再び現れます。
 
この特定の現象を考慮して、私はそれが一定の期間スイッチに混雑を引き起こし、最終的にコアスイッチの対応するスイッチポートをブロックするネットワーク放送の嵐であると疑った。
 
障害の分析を容易にするために、ネットワーク監視ツールを使用して、5階のスイッチのカスケードポートでのネットワークパケット送信を分析しました。
 
結果は、インバウンドとアウトバウンドのパケットトラフィックの両方が非常に高く、通常の値を約100倍上回っていることを示しました。これは、4階のネットワークでのネットワーク輻輳の発生を示しています。

info-640-380

 
それで、ネットワークの輻輳はネットワークウイルスによって引き起こされますか?
それとも、ネットワークループが原因ですか?
 
故障したスイッチのカスケードポートのステータス情報の変更、特に出力ブロードキャストパケットの変更を観察する予定です。出力ブロードキャストパケットが毎秒増加し続けると、5階のネットワークにネットワークループがある可能性が高くなります。
 
この分析アプローチに基づいて、コンソール制御ケーブルを使用して故障したスイッチに直接接続し、システム管理者としてシステムバックエンドにログインしました。
 
「ディスプレイ」コマンドを使用して、スイッチのカスケードポートの出力ブロードキャストパケットの変更を確認し、結果を毎秒調べて比較しました。
 
繰り返しテストした後、故障したスイッチからの出力ブロードキャストパケットのサイズが実際に継続的に増加していることを発見しました。
 
これは、5階の5つのユニットに間違いなくネットワークループがあることを示しています。
 
5階の2つのスイッチを慎重に調べると、それらの物理的な接続が正常であることがわかりました。
 
さらに、これら2つのスイッチのさまざまなスイッチポートは、5階の部屋の壁ネットワークソケットに直接接続されていました。
 
理論的には、部屋が不正なカスケードにスイッチを使用しない限り、ネットワークループはないはずです。
 
5階のネットワークにネットワークループがあることが証明されたので、誰かがスイッチを使用してネットワークを拡張していることを意味します。拡張されたスイッチを見つけて、その物理的な接続を検査することにより、特定の障害のあるノードをすばやく識別できます。
 
そこで、私は電話で5階のさまざまなユニットのネットワーク管理者に連絡し、各オフィスルームを検査し、部屋を下位スイッチを使用して報告するように要求しました。
 
検査結果が私に報告されるまでには時間がかかりませんでした。驚くべきことに、約10室の部屋がネットワーク拡張のために下位スイッチを使用していました。
 
この時点で、私はこれらの10の部屋にネットワークループの高い確率があることを知っていました。しかし、正確にどの部屋ですか?
 
各部屋にアクセスして、ネットワーク接続を1つずつ検査する必要がありますか?
 
慎重に検討した後、ネットワークのドキュメントを取得し、これらの10室で使用されるポート番号を特定しました。

info-640-402

 
次に、直接接続しましたネットワークケーブルこれらのポートと、これらのポートのビューモードでは、故障したスイッチのIPアドレスを順番に測定しました。
 
6番目のポートに到達したとき、私はそれをうまく止めることができないことがわかりました。
 
このポートが実際に問題があるかどうかを判断するために、ポートのビューモードで「表示」コマンドを使用して、そのステータス情報を確認しました。
 
結果を分析した後、このポートの入力パケットと出力のパケットサイズが大幅に異常であることがわかりました。したがって、このポートは間違いなく故障したスイッチの異常な作業状況の原因であると推定しました。
 
ファイルレコードを参照した後、そのポート番号に基づいて対応する部屋をすばやく識別しました。
 
現場に到着すると、その部屋の2つの利用可能なネットワークポートが両方とも小さなハブに接続されており、これら2つのハブがいくつかのコンピューターに接続されていることを発見しました。
 
さらに悪いことに、ネットワークケーブルがそれらを直接接続し、2つのハブ間にネットワークループを作成しました。
 
このループはブロードキャストの嵐を引き起こし、最終的に故障したスイッチのカスケードポートをブロックし、建物ネットワーク全体がインターネットに適切にアクセスできなくなりました。
 

3。トラブルシューティング:

 
追加のネットワークケーブルを取り外した後、スイッチポートのステータス情報を再確認しました。結果は、入力と出力のパケットサイズが正常に戻っていることを示しました。
 
コアスイッチの対応するポートのステータスを再度確認したとき、以前の「ダウン」ステータスが「アップ」ステータスに変更されたことがわかりました。この時点で、私は4階の故障したスイッチを正常にpingすることができました。
 
これは、この問題が、5階の部屋の1つにあるユーザーによるスイッチまたはハブの不正使用によって実際に引き起こされたことを確認しています。その後、インターネットユーザーとのさらなる調査を通して、私は彼らの部屋が前の晩に掃除されたことを知りました、そしてその時、すべてイーサネットケーブルプラグが抜かれていました。
 
ユーザーの接続に関する知識が限られているため、クリーニング作業が完了した後、ケーブルをランダムに再接続してネットワークループになりました。したがって、ネットワークエンジニアとして、メンテナンスプロジェクトを実施する際にもこれに注意する必要があります。

お問い合わせを送る

あなたはおそらくそれも好きでしょう