クロール絵文字パッケージプロジェクト

Crawling Emoji Package Project

クロール絵文字パッケージプロジェクト
絵文字パックでは足りないと言う友達がよくいます。次に、絵文字パックのWebサイトを見つけて簡単に分析し、Pythonスクリプトを作成してクロールしました。、以下で紹介しましょう。

1つ目は、Webページのソースコードを取得する関数スパイダーです。

関数に必要なパラメータは1つのURLアドレスのみであり、Webページのソースコードを返します

url =“ https://www.fabiaoqing.com/biaoqing/lists/page/1”
このウェブサイトの画像ページは200です。次のページに入るたびに、ページの後のパラメータは+1になり、ウェブページチェック機能を使用して画像のコード部分を表示します。

imgタグのクラスが怠惰であることがわかります。これは、ネットワーク速度に応じて画像をWebページに表示できるようにし、遅延読み込みを使用して応答速度を高速化するためです。したがって、srcの背後にあるURLは取得したい画像アドレスではなく、実際のURLはデータの背後にある必要があります。 -元の

画像タイプの分類の目的を達成するために、jpg画像とgif画像を一致させるために2つの通常の一致が書き込まれます。もちろん、コードの3行目は、任意の形式（png、Jpg、gif、tifなど）の画像と照合するためにも使用できます。クロールされるWebページには、これら2つの形式しかないため、最初の形式を使用してください。二
このとき、url = 'https：//www.fabiaoqing.com/biaoqing/lists/page/ {}。html'を設定し、forループを使用して200ページをトラバースします。ちなみに、ダウンロードしたのはjpg画像のみです。必要に応じて、同じメソッドを使用してgif_urlをトラバースしてダウンロードできますが、頻繁なWebページへのアクセスによってIPがブロックされるのを防ぐために、time.sleep（）を使用して数ページごとにスリープを設定できます。秒、私の側の10ページごとに、私は20秒間休憩します

クロール絵文字パッケージプロジェクト

カテゴリー

興味深い記事

iOS開発のカスタムセルでのselfaddSubviewとself.contentviewaddSubviewの違い

CentOS-7にCinnamonデスクトップをインストールします

VMwareエラー：このホストはIntel VT-xをサポートしていますが、IntelVT-xは無効になっています

フェニックスOSはx86_64ソリューションで立ち往生

jenkins：java.io.IOException：CreateProcess error = 2、システムは指定されたファイルを見つけることができません。

Gitのスタッシュとアンスタッシュの使用、gitのアンスタッシュに失敗しました

NLTKダウンロードエラーの究極の解決策

Rのヒートマップを使用して混同行列をプロットする方法は？

ANR、トゥームストーンファイルのエクスポート-恐れることなく許可が拒否されました

PDFArea Image to PDF Converter（画像からPDFソフトウェア）v6.5公式バージョン

人気の投稿