it-swarm-ja.com

何が原因ですか? pcieport 0000:00:03.0:PCIeバスエラー:AER /不良TLP

以下のようなエラーメッセージが表示されます。

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

これらは(これまでのところ)修正されていますが、パフォーマンスの低下を引き起こします。明らかに、この問題は解決する必要があります。しかし、インターネットでそれについて多くを見つけることはできません。 (たぶん私は間違った場所を探しています。)以下に掲載するリンクをいくつか見つけました。

誰かがこれらのエラーについてもっと知っていますか?

マザーボード、Samsung 950 Pro、GPU(またはこれらの組み合わせ)ですか?

ハードウェアは次のとおりです。M2のAsus X99 Deluxe II Samsung 950 Pro NVMe。 mbのスロット(PCIeポート3を共有)。 PCIeポート3には他に何も接続されていません。PCIeスロット1コアi7 6850K CPUのGeForce GTX 1070

私が見つけたリンクのいくつかは同じハードウェア(X99 Deluxe II mb&Samsung950 Pro)について言及しています。 Arch Linuxを実行しています。

「8086:6f08」という文字列が、journalctlまたはこれまでに検索したいと思っていた他の場所で見つかりません。

nvme ssdの奇妙なエラーメッセージ(不良TLP):linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe:カードがTLPの再送信に静かに苦労していますか? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080スローの悪いTLP PCIeバスエラー-GeForceフォーラム https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

ドライバー-dmesgログのPCIeエラー-Ubuntuに問い合わせる https://askubuntu.com/questions/643952/pcie-error-in-dmesg-log

780Ti X99ハードロック-PCIEエラー-NVIDIA開発者フォーラム https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/

23
MountainX

何が起こるかを完全に説明することはできませんが、私は少なくともいくつかの詳細を述べることができます。

たとえば ここ で説明されているように、CPUはトランザクションレイヤーパケット(TLP)によってPCIeバスコントローラーと通信します。障害のあるものがハードウェアによって検出され、Linuxカーネルがそれをメッセージとして報告します。

カーネルオプションpci=nommconfは、カーネル2.6以降のLinuxで使用可能なメモリマップPCI構成スペースを無効にします。非常に大まかに言って、すべてのPCIデバイスにはこのデバイスを説明する領域(lspci -vvで表示されます)があり、この領域にアクセスする最初の方法はI/Oポートを経由することですが、PCIeではこのスペースをより簡単なアクセスのためのメモリ。

つまり、この特定のケースでは、PCIeコントローラーがこのメソッドを使用して特定のデバイスの構成スペースにアクセスすると、somethingが失敗します。デバイス、マザーボードのPCIeルートコントローラ、これら2つの特定の相互作用、またはその他のハードウェアのバグである可能性があります。

pci=nommconfを使用すると、すべてのデバイスの構成スペースが元の方法でアクセスされ、アクセス方法を変更するとこの問題を回避できます。したがって、必要に応じて、解決と抑制の両方を行います。

28
dirkt

カーネルコマンドラインオプションpci=nommconfを追加すると、問題が解決しました。したがって、問題はマザーボードに関連していると思います。 all私のX99マザーボード搭載コンピュータで発生します。 Z170システムや私が所有するその他のハードウェアでは発生しません。

3
MountainX

この手順を試してください:

  1. cp /etc/default/grub ~/Desktop
  2. グラブを編集します。追加 pci=noaer の終わりに GRUB_CMDLINE_LINUX_DEFAULT。行は次のようになります:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. Sudo cp ~/Desktop/grub /etc/default/

  4. Sudo update-grub
  5. 今すぐ再起動
3
Ehtesham

同じエラーが発生します(デバイス8086:6f08に関連付けられた不良TLP)。 X99 Deluxe II、Samsung 960 pro、Nvidia 1080 tiを持っています。これらの問題は、Samsung ProなどのX99チップセットとM.2デバイスに関連しているようです。

X99 Deluxe IIマザーボードは、PCIE16_3スロットとM.2/U.2の間で帯域幅を共有します。 @Nicからのコメントに続いて、BIOSでOnboard Devices Configurationを変更しました。 U.2_2自動からU.2_2への帯域幅。これで問題が解決しました。

2
user1759557

X99-EのBIOSのPCIE16_3スロット構成を、M.2デバイスサポートのデフォルトであるautoではなく、x8モードに静的に設定するように変更しました。 PCIe 1xから16x拡張ボードを介して接続された1070GTXカードの両方でTLPエラーなしで正常に動作します。

私は最初にポート16_3を使用せず、テストのためにそのスロットに移動しましたが、BIOSを変更する前にまだ問題がありました。また、マイナー設定ですべてのカードのスリープ設定を30に変更しました。

変更の前に、私はカーネルログに障害がスパム送信されていました。また、変更の前後にシステムの電源を入れ直してみました。かなりしつこいようです。

2
Nic

マザーボードのマニュアルで「AER」を検索してください。特定の非互換性を修正するか、AERを完全に無効にすることにより、問題の原因を取り除くことができます。すべてのエラースパムが懸念する場合にのみこれを使用してください修正済みエラー。

2
N3V3N