it-swarm-ja.com

最高のシステム管理者WTF?

遅かれ早かれ、あなたは自分の目でそれを目撃しました(または、そうしようとしています):何かが起こった恐ろしいプロジェクト/システム/状況[〜#〜] so [〜#〜]台無しにされたあなたはそれが実際のように実際に進んだと信じられないだけです。

管理ミス?間違った予算?誤解?ばかげた、明白な無知?あなたの原因に名前を付けてください、それは確かに起こりました(そして悲しいことにたくさん起こり続けます ここ を参照してください)。

アミューズメント(皮肉なものですが)と学習(うまくいけば)のために、ここで説明してください。

いくつかのルール:

  • これはではなくランダムな(完全に壊滅的であっても)管理エラーの場所であるため、「argh I typ-typed that rm -r」または「OMG I前回のバックアップよりも破損したデータベースをコピーしただけです」それらはより良い ここ です。これは、「このシステムを設計/実装した人の影響下にあった薬物の種類は何か」についてです。
  • 投稿ごとに1つのWTFなので、適切にコメントを付けることができます。
  • 実際に目撃したものを投稿してください:-)
  • あなたがそれをしたのがあなたなら、それはまだ資格があります:-)

すぐに素材を追加する予定です。自由に追加してください。してください:-)

20
Massimo

報告された問題に対するマイクロソフトのサポートエンジニアからのメール返信:

"あなたの問題についての私の意見としては、私1つの単語を持っている:奇妙です。"

ゴールド!

10
l0c0b0x

私は、これまで聞いたことのない会社から電話を受けました。この会社は、顧客向けにExchange 2003メールサーバーを実装することを任されており、その方法についてまったく手掛かりがありませんでした。奇妙すぎませんか?私はフリーランスのコンサルタントとして働いているので、あなたのやり方がわからない(そしてあなたがお金を稼ぐ)仕事を完璧にこなしています。

それで私は顧客のサイトに行って、かなり奇妙な何かを発見しました:ネットワーク内のすべての単一のサーバーはドメインコントローラーでした;それらの15ほどすべて。

次に、さらに奇妙なものを発見しました。ActiveDirectory全体の動作は「不安定」としか表現できず、ユーザーが想像できるあらゆるネットワークの問題を抱えていて、Exchangeは不明でインストールを拒否しました-人類間エラー。

サーバーのネットワーク構成を確認したところ、ISPのパブリックDNSサーバーを使用していることがわかりました。それから私は別のサーバーを見ます...そして、それは同じでした。次に、DCを調べます...同じことです。それから私は尋ねました...そしてそれは正式に確認されました:ネットワーク上のすべてのコンピューター(約1500)は正当なドメインコントローラーの代わりにISPのDNSを使用していました。

私はDNSの説明に進みましたquite適切なActive Directory操作にとって重要であり、裏話を再構築することができました:

  • 誰かが最初にADドメインを正しくセットアップし、DC=をすべてのコンピューターのDNSサーバーとして使用しました。
  • 彼/彼女/それはフォワーダーやファイアウォール設定について何も知らなかったので、コンピューターはインターネットのパブリックネームを解決できませんでした。
  • そこで、コンピュータでISPのDNSサーバーを使用するという考えが生まれました。彼らはそれをeveryoneに設定しました。
  • 「ドメインコントローラーが見つかりません」というエラーが多数発生し始めました(誰が推測したでしょうか?)。
  • 彼らは十分なDCがないことが問題の原因であると考えたため、every single serverをその役割に昇格させました。
  • 言うまでもなく、これらの新しいDCも誤ったDNSを使用していたため、これは事態を悪化させただけであり、複製も​​できませんでした。
  • これはmonthsの間続きました、彼らはネットワークにまったく「慣れ」、まったく信頼できませんでした。
  • これに加えて、彼らはExchangeセットアップを起動しようとしましたが、それは惨めにクラッシュしました。その後、彼らは外部コンサルタントに電話することを決定し、彼らがまったく手がかりを得るまで、彼らは完全に、彼らのネットワーク設定に間違いがあった。
24
Massimo

むかしむかし、電子カルテを持つ中小企業(10人)のクライアントがいました。 (医師ではありません)。ある日、バックアップが失敗していたことに気付きました。テスト時に、テープドライブはまったく機能していませんでした。私はこれを所有者に話しました。所有者は、ドライブが悪いことをよく知っていましたが、交換するには高すぎると言いました。

確かに、それはあまりWTFではありません。

WTFは、彼のスタッフが毎日テープを回転させてセーフティボックスに持ち込んだこと、そしてすべてのジャズを死んでから6〜9か月にしていることです。

「スタッフには言わないでください。心配するかもしれません。」

23
SirStan

私は大政府機関(イタリア政府の主要機関の1つ)のシステム管理者として働いており、数か月間データセンターを管理してきました。ある晩、私の電話が鳴り、上司が何か非常に悪いことが起こっていることを教えてくれます:総停電

OK、UPSがありますよね?

はい、しかしそれらは長くは続かないので、そこに行って、電源が戻るまですべてをシャットダウンすることをお勧めします。

私はそこに行き、暗い廊下を通り抜け、サーバールームに到着します...そして、pure hellとしか表現できないものに迎えられます=。文字通り。部屋はとても暑かったので、ケーキを焼くことができました。 UPSの電源は問題ありませんでしたが、サーバーの半分はすでに過熱からシャットダウンしており、残りのサーバーは苦しんでいました。

理由?

サーバーはUPS電源に接続されていました... エアコンはありませんでした

17
Massimo

HP ProLiant ML370 G3ファンの障害...このモデルのマザーボードのファンセンサーは、5年後に故障する傾向がありました。間違った組み合わせのファンが検出されない場合、サーバーは起動できません。私は顧客にショップVACでマシンをジャンプスタートさせる方法を説明する必要がありました(起動時にファンを回転させるため)。これが、新しいシステムが到着するまでサーバーを稼働させ続けた方法です。

enter image description hereenter image description here

9
ewwhite

私はDac-Easy会計の会計ソフトウェアコンサルタントでした。ある地域の企業の本社に呼び出されたときに、会計士から、毎週末プログラムが会計エラーでいっぱいである理由を解決できない場合、別のアプリケーションとコンサルタントを探す必要があると言われました。管理ログファイルを調べたところ、すべてのエントリが通常金曜日または土曜日の夜に作成されたことがわかりました。その後、所有者の妻が自宅からPC Anywhereを使用して会計システムのコンピューターにログインし、ワインを数杯飲んだ後、小切手帳とアカウントのバランスをとろうとしていることがわかりました。数値が良さそうになったら、ログオフします。

8
Tobin Davis

親会社の事務所から受け取ったコンピューターを持ち上げました。ケースを開けると、フロストミニ小麦が半分入っていることがわかりました。ネズミがその中に住んでいるか、フードキャッシュを使用しているようです。おそらくエントリポイントは、ケースとDINキーボードジャックの間のギャップでした。

まさにあなたが求めたものではなく、明確なWTFです。

7
Clay Kimber

別の顧客、別のホラーストーリー。

メインの投稿で、私は、適切なバックアップを、それを置き換えることを目的とした破損したデータベースで誤って上書きしてしまったことについて話しました。それが起こる:

そのため、バックアップからの復元が必要でした。幸いなことに、実際には---([〜#〜] was [〜#〜]そこにバックアップがあります。それは、本当に大きなテープライブラリが接続された中央のバックアップサーバーで毎日行われました。このサーバーは会社全体のバックアップを管理していました。それは本当に高価で、それにReal Backup Softwareがインストールされていました。

ここまでは順調ですね。バックアップジョブを調べ、適切なテープをロードし、復元操作を開始します。テープがロードされ、復元が開始されますが、何も起こりません。

もう一度やり直します。

アンロード、リロード、リブート、以前のバックアップの復元を試みます...何も変わりません。

long操作が行われていると想定し、それを一晩中放置します...翌日、まだ何も変わりません。

さて、Real Backup Softwareベンダーのサポートに連絡する時間です...しかし、それはできません。私たちは日曜日にいます。ベンダーのサポートサイトを調べてみますが、特別なアクセスコードが必要で、1人のマネージャーだけがそれを持っています...システムを発見することに本当に動揺する同じマネージャーが、月曜日の彼が仕事に来るとき、まだダウンしています。

苦痛の別の日、そして私はバグがよく知られていることを発見しました、そしてそれはベンダーのパッチによって修正されました、(明らかに)誰も気にしません。だから私はそれを適用しに行きます...しかし、それは実行できません:パッチが安全に適用できることをベンダーが確認しない限り、管理者は何かを壊す危険を冒したくありません。 バックアップサーバーが何も復元できなかったという事実は、明らかにそれらに「壊れた」ように見えませんでした。

合計4日後にようやく、さまざまなサポートコールとベンダーがサポートエンジニアをオンサイトに派遣して、ようやくパッチを適用してバックアップを復元することができました。バックアップサーバーは[〜#〜] ever [〜#〜]を実行できませんでしたが、誰もリストアできませんでしたこれまでにテストしたので、誰も気づきませんでした。

7
Massimo

〜60([〜#〜] sixty [〜#〜])PCのネットワーク。

セキュリティ狂信のボス。

VLAN機能を持ついくつかの新しいスイッチ。

〜20([〜#〜] twenty [〜#〜])VLANを含む「ネットワーク再編成計画」。

未知の高出力のおかげで、私はこれがすべて実際に始まる前に去りました...

6
Massimo

楽しさと利益のためのターミナルエミュレーション

私は古いシステムで作業しています-本質的には、Unixボックスに接続するテキスト端末の束で、物事を複雑にするためにいくつかのWindowsコンピューターが投入されています。

いくつかの重要な背景情報

  • プライマリソフトウェアアプリケーションは、独自の拡張termcapファイルを使用します。システム全体のtermcapとterminfoは無視されます。
  • プライマリソフトウェアアプリケーションでは、環境変数に応じてさまざまなキーボードマッピングを選択できます。
  • すべてのテキスト端末には、プログラム可能なキーボードがあります。
  • Windows PCは、主要なソフトウェアアプリケーションによるサポートが組み込まれていない独自のクライアントソフトウェアを使用して接続します。
  • 独自のクライアントソフトウェアにより、ロード時にさまざまなキーボードマッピングを選択できます。
  • スタッフの半分だけが標準のQWERTYレイアウトを使用しています。
  • このシステムに取り組んだシステム管理者の少なくとも1人、おそらくそれ以上が、端末エミュレーションを正しく理解できていません。

これでどこへ行くのかわかると思います。

適切な端末サポートをterminfoファイルとtermcapファイルに追加しようとする中途半端な試みがありましたが、これらは部分的にしか機能していません。プライマリシステムアプリケーションで使用される専用のtermcapファイルは機能しますが、$ TERMが適切に設定されることはないため、ほとんど関係ありません。

ログインすると、各ユーザーは基本的に、ログイン元と使用するキーボードレイアウトを選択する必要があります。自動検出は行われません。これにより、$ TERMがANSIに設定され、regardlessどの端末がクライアント側で使用されているか、および環境変数が設定され、プライマリソフトウェアアプリケーションが一部を再マップします。キーの適切な。

テキスト端末で埋め込みキーボードレイアウトを使用している場合は、スクリプトを実行して、埋め込みレイアウトにキーを再プログラミングsomeします(キーボード自体に物理的に印刷されています)が、すべてではありません。 Windows PCでは、ほとんどのファンクションキーをANSIに再マップするために、クライアントキーマップがロードされます。それらのすべてを再マップすることはできません。そうしないと、他のいくつかのキーが機能しなくなります。

端末のいずれかから他の何かにログインすることは失敗の練習であり、サーバー自体で直接合理的にのみ行うことができます。すべてが機能するため、修正に必要な時間と労力を正当化することは困難です。しかし、今は行き詰まっている20年前のテキスト端末よりも新しいものを追加するには、基本的にシステム全体を書き換える必要があります。

見るたびに少し泣きます。

6
goldPseudo

私は、すべての.exeを1つのフォルダーに入れて、コンピューター上のファイルを再編成することに決めた人を知っていました。

6
Jay Riggs

ああ、これは簡単です...

ケンタッキー州の田舎にある倉庫にある会社にLinuxシステムをインストールしました。このシステムは、組織の会計/在庫アプリケーションです。私は1998年の時代を置き換えていましたSCOサーバーを新しいCentOS 4サーバーに置き換えました。その結果、接続とクライアントに関しては最悪の事態になると予想していました。古いPC、ケーブル不良、 etc.新しいスイッチ、ケーブル、シンクライアントなどをサイトに発送しました...

ただし、配線の「クローゼット」が バスルーム!実際、配線は倉庫の浴室トイレのすぐ上の吊り天井の上のスペースに配置されていました。これには、DSLモデム、10メガビット[〜#〜] hub [〜#〜]および電話用の66ブロックが含まれます...

enter image description hereenter image description here

5
ewwhite

Unix管理者の1人にWindowsボックスを与えました。これは、さまざまなオペレーティングシステムに慣れ親しむために、Windows管理者にLinuxボックスを管理者に与えた直後のことです。私は、Windowsの管理者としてLinuxボックスを台無しにしようとはしていませんでしたが、Unixチームにたくさんの質問をしました。これが演習の目的だったと思います。すべてのボリュームのサイズを正しく設定し、すべてを1つのボリュームまたは単一のパーティションに配置しないようにすることについて厳格な講義を行った後、私は出て行って、2年後もまだ稼働している完全に適切なボックスを作成しました。

異なるボリュームについて講義してくれて、フルディスクでOSがクラッシュするようにビルドしていないUnixの人がWindowsボックスをビルドしたとき、彼はすべてをC:に置きました。 「私たちが持っているポリシーではそれをバックアップすることはできず、それらのログがいっぱいになると、ボックスがクラッシュします。」と言ったとき。彼は言った「私はそれがWindowsであると思ったが、C上のすべてが理にかなっている。」彼はまったく別のパーティションを作成しなかった。私はこれに真剣に戸惑っていました。絶対にWTFは一種のことを考えていました。明らかに、OSに関係なく一部のベストプラクティスが同じであることは彼には思い当たりませんでした。

5
Laura Thomas

Massimo の返信は別のWTFを思い出させます...

小規模オフィスには、Exchange、Symantec AVなどを備えたWindows 2003サーバーがあります。会社は通常、すべてのIT作業に私たちを使用します。しかし、この新しいホットショットはオフィスにあり、新しいPCを購入しました。私たちはそれらを統合されたDell Optiplexプラットフォーム上に置いていましたが、この人はそれらのうち3つをBest Buyで販売されていた「優れたマシン」に置き換えることにしました。

とにかく-彼らはどういうわけかそれをドメインに参加させることに成功した。

最初の呼び出し:

Outlookが見つかりません。マシンにはWord(Microsoft Works)が付属しているので、他のすべてはどこにありますか。

2番目の呼び出し:

ネットワークアンチウイルスをどのように使用しますか?

これはwtfです。オンサイトに行ったところ、クライアントのインストールではなく、7台のマシンがSymantec Antivirus[〜#〜] servers [〜#〜]として構成されていました。どうやら紳士は、クライアントの設定をロックしたことを気に入らず、スキャン時に変更できるようにクライアントを「再インストール」することにしました。どうやら私たちが除外したSymantec AVの最初のCDは、どういうわけか彼にクライアントではなく「サーバー」をインストールするように説得しました。

5
SirStan

一部のサーバービルドを支援するために、クライアントから電話がありました。ビルド中に、これらはラックから下の2つのサーバーの交換用サーバーであることが通知されました。ラックの位置が関連しているのは奇妙だと思い、理由を尋ねました。サーバーの中央を通る水道管が破裂した後、サーバールームが浸水したことが判明しました。

それで、あなたが尋ねるサーバールームの真ん中で水道管は何をしていますか?さて、女性用バスルームは隣にあり、サーバールームは見えません。メインフィードをトイレに設置するのに最適な場所はどこですか。

5
LRE

私の最高のWTFは、私が最初にここから始めたとき、私の現在の雇用主から生まれました。

私がサーバーの状態を発見したとき、仕事の最初の数か月はほぼパニックと完全な恐怖の絶え間ない状態に関係していました。私の現在の経験レベルでは、火をつけて保険をかけることをお勧めしたかもしれません。しかし、最も良い点は、1つの企業ポリシーでした。

ダイアルアップ顧客の会計はありませんでした。ダイヤルアップ顧客から収入の半分を得たISPで。これは実際、私が始めた時点で約6年間実施されていたポリシーであり、nothingがそれについて行われていたことに心を揺さぶられました。標準ラインは「私達は私達が私達の顧客を使いすぎないことを信頼する」でした。場所が手ごろな予算で運営されていて、その間ずっとスイッチの実際の管理者がいなかったという事実は、私が考えていない問題に役立ちませんでした。

もちろん、このポリシーの最終結果は、スパマーが基本的にダイヤルアッププールを指揮したことです。ほぼ毎晩、プール全体がいっぱいになるまで1つのアカウントを使用して複数のモデムにダイヤルし、スパムをできるだけ早く爆破しました。 AAAのバージョンRADIUSは、「一度に1人のユーザーしか許可しない」スイッチが一度になかったため、問題になりませんでした。Perlで何かをハッキングして、 RADIUSサーバーが置き換えられる可能性があり、最初の1週間か2週間でその問題が修正されるまでのログイン。他の問題の一部は、十分な時間が取れないことでした。同時にテクニカルサポートも行っていたので、問題を修正する(参照:靴紐の予算)が、私がまだここにいる理由の1つは、私がすべてを自由に統治したことでした。先に進まずに健全なアイデアを実行しないように言われました。

4
Ernie

DNS From Hellに関わる同じ顧客。

彼らのExchangeサーバーは何年にもわたって正常に稼働し続け、一部のディスク障害(おかげで、RAID、さらにはバックアップ)にも耐えました。ある日、私は無関係な問題のために再び呼び出され、彼らは私にen passant何かが彼らを困らせていると言った:以前に、彼らは誰もができることを発見した他の全員のメールボックスを開く。彼らは奇妙だと思ったが、それを修正する方法がわからないので何もしなかったし、とにかく電子メールは機能していて、誰もこれを発見していなかった。

私はquiteここでショックを受けました:誰もが他の誰かのメールボックスを開くことができ、これはマイナーなニュアンスのみそしてTHREE MONTHSのために何もしませんでした。普通の人ならすぐにサーバーからネットワークコードを引っ張ったでしょうが、引っ張っていません。

問題の原因は...奇妙なことです。誰かがActive DirectoryのExchange組織レベルで「全員/フルコントロール」を設定したため、全員がすぐに完全なExchange管理者になりました。彼らの唯一の運は、それに気づいた人がほとんどいないことでした。

今日の時点では、誰が実際にそれをしたのかまだ誰も知りません。

4
Massimo

医師のオフィスの会計(顧客の請求と保険金請求)ソフトウェアを作成する中小企業のフルタイムのプログラマーおよびパートタイムの管理者として働いた。大口の顧客からサーバーがダウンしているという電話を受けた。 Altos Unix SysV/386を実行する新製品でした。私が彼らのすべてだったので、彼らは私と新しいギャルを送りました。

そこに行き、WordPerfectドキュメントをできるだけ速く入力するデータ入力演算子でいっぱいの部屋がありました。別のオペレーターのセットが同じことを行っている状態から出る長距離路線がありました。

ドキュメントディレクトリには、約10,000のWord完全ドキュメントがあり、すべて同じ形式に従っています。オールインワンのディレクトリ。何とかして負傷し、そのようなものに苦しんでいます。この医者は傷害訴訟を起こす弁護士にとって頼りになる男だったようです。

フロッピーから起動しようとしたところ、シークノイズが多くなりました。フロッピーを引き出したところ、クモの巣で完全に覆われていました。それは医者のオフィスだったので、私は綿棒とアルコールを要求しました(それは私たちが持っていた唯一のUnixブートディスクであり、そのサービスコールで問題を修正する唯一のチャンスでした)、フロッピー、ドライブ、サーバーのクリーンアップを始めました。

2つの問題がありました。1つは、カーペットが敷かれたオフィスとその部屋の隅(厚いプラッシュパイルカーペット)の汚れがサーバーに満ちていて、80度のオフィスが過熱していたことです。ファイルシステムは深刻なFSCK処理を必要とし、私は10Kファイルを新しいアルファベット順のサブディレクトリのセットに分割し、それらをさらに分解することを提案しました。

医者は私たちがドアに来たときに私たちに新しいものを引き裂いた完璧な***穴でした。私たちが去ったとき、WordPerfect for UNIXオプションを購入したからといって、大陸内でのドキュメント作成用にサーバーのサイズを決定したわけではないことを説明しました。また、A/C、カーペットのないサーバーの場所、UPS、外部RAID、およびより優れたディレクトリファイリングプロトコルも必要でした。これが彼がすべてのお金を稼ぐ方法だったので、突然彼はすべての耳になりました。私はすべての情報を営業に提供しましたが、他の理由ですぐにその仕事を辞めました。

4
kmarsh

数年前、私が働いていた会社は競合他社の1社を買収しました。それらのマシン(Centos)を監査して、構成に関して当社の基準を満たしていることを確認する必要がありました(システム管理者は、ターンキーソリューションを開発する彼自身の会社を始めることの好意)。

/etc/rc.local(すべての素晴らしいWTFのホーム)で私は見つけました:

swapon /dev/sda3

そして

route add -net 10.0.0.0 netmask 255.255.0.0 eth1

注:eth1はifcfg-eth1で構成され、ネットマスクは255.255.255.0です

どうやら実際のシステム管理者は、/ etc/fstabや/ etc/sysconfig/network-scripts/*などの定型的な設定ファイルを使用していません

3
rodjek

10年前、主なサーバールームのケーブルがスパゲッティスープのように見える会社にインタビューしました。ネットワーク機器は、20フィートx 60フィートの部屋の1つのコーナー近くの3つのラックにありました。あらゆる種類の色のネットワークケーブルのカスケードがラックを転がり落ち、約7フィートの幅の絡まったケーブルのプールで終わり、ラックから約5フィート流出しました。ドキュメントはなく、何がどこにあるのか誰も知りませんでした。

同社は、生命と財産の安全を扱う分野で95%の市場シェアを有していました。私が言えることは、それが本当の一時停止を与えることができるということです。

ところで、会社はまだ営業中であり、それ以来明らかに多くのことを片付けてきました。

3
Rik Schneider

Demarcクローゼットの中にいなかったので、サイトでこの甘い設定を見つけました:

Eliteファイバーケーブルのインストール= TWIST TIE

代替テキストhttp://locobox.googlepages.com/Fiber.jpg代替テキストhttp://locobox.googlepages.com/Fiber2.jpg

3
l0c0b0x

今年の初め、私たちは新しい女の子を雇いました。会社のすべてのフォントがコンピュータにインストールされていることを確認するように求められました。私は彼らがいることを知っていましたが、私の戦いを選んで、それらを再びインストールすることに決めました。約5分後に彼女から電話があり、彼女は私に来て、私がインストールした新しい「ソフトウェア」の使い方を彼女に見せてほしかった。私は上を歩いてWordを開き、フォントを変更する方法を彼女に説明しました。これはインストールしたものです。

この女の子はPHDを持っていました!!彼女はもはやここでは働いていませんが、フォントの使い方を知らなかったためではありません。

2
AppsByAaron