it-swarm-ja.com

wget:特定のWebサイトからURLを再帰的に取得します

Webサイトからすべての可能なURL(内部ページURL)を再帰的に取得しようとしています。

Wgetを手伝ってくれませんか?またはこれを達成するためのより良い代替手段はありますか?ウェブサイトからコンテンツをダウンロードしたくはありませんが、同じドメインのURLを取得したいだけです。

ありがとう!

[〜#〜]編集[〜#〜]

これをwgetで実行してみましたが、後でoutlog.txtファイルをgrepします。これが正しい方法かどうかはわかりません。しかし、それは機能します!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'
7
abhiomkar

nutch のようなものを使用することもできます。私はこれを使用して、サイトの内部リンクをクロールし、それらを solr しかし、 この投稿 によると、やりたいことに応じて、外部リンクも実行できます結果は少しやり過ぎかもしれません。

1
Snipzwolf