Pythonクローラー：91jobコンテストの質問バンクをクロールします

Python Crawler Crawl 91job Contest Question Bank

＃http：//ycit.91job.gov.cn/contest/question

＃今回の登山は91job競争の質問バンクです

＃合計52の質問

＃クロールして質問と正解

＃ドキュメント形式で保存

＃ログインする必要があるため、Cookieを使用します

＃しかし、コードのこの部分を使用すると、Cookieの有効期限が切れている可能性があり、自分のアカウントを使用できます

#xpathは、データを抽出するための非常に使いやすい方法です

＃クロールは単純なので、コード上に直接あります

import requests from lxml import etree import csv for i in range(1,523): url = 'http://ycit.91job.gov.cn/contest/question?page=%s'% i header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0 WOW64 Trident/7.0 rv:11.0) like Gecko Core/1.70.3676.400 QQBrowser/10.4.3505.400', 'Cookie':'__51cke__= PHPSESSID2=o0g27b9lvje92ei8f8jd1muht3 __tins__18735067=%7B%22sid%22%3A%201559039651245%2C%20%22vd%22%3A%205%2C%20%22expires%22%3A%201559041694835%7D __51laig__=5' } response = requests.get(url = url,headers=header) html = response.text selector = etree.HTML(html) items = selector.xpath('//div[@class='all']') for item in items: timu = item.xpath('./div[@class='title']/b/text()')[0] answer = item.xpath('./div[@class='right']/p/font//text()')[0] timu = timu.replace('xa0'and'u2002',' ') info = [timu,answer] with open('a.doc','a+',encoding='utf-8',newline='')as f: f.write('
'.join(info)+'
')

クロール結果::

Pythonクローラー：91jobコンテストの質問バンクをクロールします

カテゴリー

興味深い記事

ExtJS画像ビューア（推奨）

作成を促すためにEnjoyHintを使用する

#pragma hdrstop

人々は建物に行き、Baofengyingyinは閉鎖します、それは将来の歴史になるでしょうか？

moderncvでCVとカバーレターを分離する方法は？

Android Studioは、エラーgradleプロジェクトの同期に失敗したと報告します。基本機能（編集、デバッグなど）は機能しません

Circuitikzでスイッチを描画するにはどうすればよいですか？

R言語のCARTアルゴリズムとC4.5アルゴリズム（決定木）

LL（1）文法、最初に設定されたスタックオーバーフローエラーを尋ねる

エネルギーバンドプロット

人気の投稿