Pythonクローラー:91jobコンテストの質問バンクをクロールします



Python Crawler Crawl 91job Contest Question Bank



#http://ycit.91job.gov.cn/contest/question

#今回の登山は91job競争の質問バンクです



#合計52の質問

#クロールして質問と正解



#ドキュメント形式で保存

#ログインする必要があるため、Cookieを使用します

#しかし、コードのこの部分を使用すると、Cookieの有効期限が切れている可能性があり、自分のアカウントを使用できます



#xpathは、データを抽出するための非常に使いやすい方法です

#クロールは単純なので、コード上に直接あります

import requests from lxml import etree import csv for i in range(1,523): url = 'http://ycit.91job.gov.cn/contest/question?page=%s'% i header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0 WOW64 Trident/7.0 rv:11.0) like Gecko Core/1.70.3676.400 QQBrowser/10.4.3505.400', 'Cookie':'__51cke__= PHPSESSID2=o0g27b9lvje92ei8f8jd1muht3 __tins__18735067=%7B%22sid%22%3A%201559039651245%2C%20%22vd%22%3A%205%2C%20%22expires%22%3A%201559041694835%7D __51laig__=5' } response = requests.get(url = url,headers=header) html = response.text selector = etree.HTML(html) items = selector.xpath('//div[@class='all']') for item in items: timu = item.xpath('./div[@class='title']/b/text()')[0] answer = item.xpath('./div[@class='right']/p/font//text()')[0] timu = timu.replace('xa0'and'u2002',' ') info = [timu,answer] with open('a.doc','a+',encoding='utf-8',newline='')as f: f.write(' '.join(info)+' ')

クロール結果::