クロール絵文字パッケージプロジェクト



Crawling Emoji Package Project

クロール絵文字パッケージプロジェクト
絵文字パックでは足りないと言う友達がよくいます。次に、絵文字パックのWebサイトを見つけて簡単に分析し、Pythonスクリプトを作成してクロールしました。 、以下で紹介しましょう。

1つ目は、Webページのソースコードを取得する関数スパイダーです。

関数に必要なパラメータは1つのURLアドレスのみであり、Webページのソースコードを返します



url =“ https://www.fabiaoqing.com/biaoqing/lists/page/1”
このウェブサイトの画像ページは200です。次のページに入るたびに、ページの後のパラメータは+1になり、ウェブページチェック機能を使用して画像のコード部分を表示します。
画像
imgタグのクラスが怠惰であることがわかります。これは、ネットワーク速度に応じて画像をWebページに表示できるようにし、遅延読み込みを使用して応答速度を高速化するためです。したがって、srcの背後にあるURLは取得したい画像アドレスではなく、実際のURLはデータの背後にある必要があります。 -元の

画像
画像タイプの分類の目的を達成するために、jpg画像とgif画像を一致させるために2つの通常の一致が書き込まれます。もちろん、コードの3行目は、任意の形式(png、Jpg、gif、tifなど)の画像と照合するためにも使用できます。クロールされるWebページには、これら2つの形式しかないため、最初の形式を使用してください。二
このとき、url = 'https://www.fabiaoqing.com/biaoqing/lists/page/ {}。html'を設定し、forループを使用して200ページをトラバースします。ちなみに、ダウンロードしたのはjpg画像のみです。必要に応じて、同じメソッドを使用してgif_urlをトラバースしてダウンロードできますが、頻繁なWebページへのアクセスによってIPがブロックされるのを防ぐために、time.sleep()を使用して数ページごとにスリープを設定できます。秒、私の側の10ページごとに、私は20秒間休憩します



画像