精易论坛

标题: 绝地战绩数据抓取 [打印本页]

作者: andwp    时间: 2018-1-24 22:21
标题: 绝地战绩数据抓取
初学python,拿绝地的战绩cha询练练手
通过对地址 https://pubgtracker.com/profile/pc/Xinyibaby-Aini?region=as
的抓包分析,逆向出数据的获取流程,最后用python模拟拿到数据。
代码写得烂,贴出来,欢迎找茬。
  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. # 文件名:bgload.py
  4. # 作者:andwp QQ:0x709933  
  5. # 使用说明:python 2.7.10 绝地战绩数据抓取,仅解析部分数据
  6. #   > python
  7. #   >> import bgload
  8. #   >> jsobj = bgload.seach('name', 'as')  
  9. #

  10. import requests
  11. import re
  12. import sys
  13. import time
  14. import urllib
  15. import json
  16. def runreq(url):
  17.     user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.20 Safari/537.36'
  18.     payload = {'User-Agent':user_agent, 'Host':'pubgtracker.com','Accpet-Encoding':'gzip, deflate, br','Accpet-language':'zh-Hans-CN, zh-Hans; q=0.5','Upgrade-Insecure-Requests':'1', 'Referer': url}
  19.     session = requests.Session()
  20.     t = session.get(url, headers=payload)  
  21.     cmpurl = urlextract(url, t.text)  
  22.     payload = {'User-Agent':user_agent, 'Host':'pubgtracker.com','Referer':url, 'Accpet' :'text/html, application/xhtml+xml, image/jxr, */*','Accpet-Encoding':'gzip, deflate','Accpet-language':'zh-Hans-CN, zh-Hans; q=0.5', 'Upgrade-Insecure-Requests':'1'}
  23.     print 'wait 4 load %s' % (cmpurl)
  24.     time.sleep(3)
  25.     t = session.get(cmpurl, headers=payload,allow_redirects=True)
  26.     print t.status_code
  27.     return jsonextract(t.text)
  28. def urlextract(oriurl, context):
  29.     tt1 = re.findall('[A-Za-z]+\=\{"[A-Za-z]+"\:\W+\}\;', context)
  30.     tt2 = re.findall('[A-Za-z]+\.[A-Za-z]+[\+\-\*]\=\W+\;', context)
  31.     fstr = re.sub('\=\{"', '.', tt1[0])
  32.     fstr = re.sub('"\:', '=', fstr)
  33.     fstr = re.sub('\}', '', fstr)
  34. #print start
  35.     a = []
  36.     a.append(fstr)
  37.     for item in tt2:
  38.         a.append(item)
  39.     bAry = []
  40.     for item in a:
  41.         temstr = re.sub('\!\+\[\]', '1', item)
  42.         temstr = re.sub('\!\!\[\]', '1', temstr)
  43.         temstr = re.sub('\[\]', '0', temstr)
  44.         temstr = re.sub('\+\(\(', '(10*(', temstr)
  45.         temstr = re.sub('\(\+', '(', temstr)
  46.         temstr = re.sub('\.', 'tmp', temstr)
  47.         bAry.append(temstr)
  48.     sc = re.search('[A-Za-z]+',bAry[0]).group(0)
  49.     tmpfeild = 'print '+ sc
  50.     hosturl = re.match( 'https?\:\/\/\w+\.\w+', oriurl).group(0)
  51.     urlLen = hosturl.__len__() - 8
  52. #    bAry.append(tmpfeild)
  53.     bAry.append('%s+=%d' % (sc, urlLen))
  54. #    bAry.append(tmpfeild)
  55.     for item in bAry:
  56.         exec(item)
  57. #        print item
  58.     answer = locals()[sc]
  59.     jschl_vc =  re.findall('jschl_vc"[^"]+"([^"]+)"', context)[0]
  60.     passval = re.findall('pass"[^"]+"([^"]+)"', context)[0]
  61.     action = re.findall('action\="([^"]+)"', context)[0]
  62.     getargs = { 'pass': passval }
  63.     encodeGet = urllib.urlencode(getargs)
  64.     cmpurl = '%s%s?jschl_vc=%s&%s&jschl_answer=%s' % (hosturl, action, jschl_vc, encodeGet, answer)
  65.     return cmpurl
  66. def jsonextract(html):
  67.     js = re.findall('var playerData[ |\=]+(\{"[\/|\.|\w|\d|\{|\}|\'|"|\[|\]|\;|\,|\:| |\-|\%]+\})', html)
  68.     if js <> None and js.__len__() > 0:
  69.         jsobject = json.loads(js[0])
  70.         print 'Player name:%s; SteamID:%s' % (jsobject['PlayerName'], jsobject['SteamId'])
  71.         stas = jsobject['Stats']
  72.         i = -1
  73.         if stas <> None:
  74.             i = stas.__len__()
  75.         while i > 0:
  76.             i-=1
  77.             print 'Region:%s ; Season:%s; Match:%s' % (stas[i]['Region'],stas[i]['Season'],stas[i]['Match'])
  78.             stasInfo = stas[i]['Stats']
  79.             if stasInfo <> None:
  80.                 for info in stasInfo:
  81.                     print '%s:%s\tcategory:%s' % (info['field'],info['displayValue'],info['category'])
  82.         return js[0]
  83.     else:
  84.         return html

  85. def seach(name, region):
  86.     '''执行cha询方法
  87.     [url=home.php?mod=space&uid=47252]@name[/url] 用户ID
  88.     @region 区域 亚洲:AS 欧洲:EU 南美:NA 澳洲:OC 南韩/日本:JPKR 东南亚:SEA  所有区域统计:AGG
  89.     '''
  90.     urlstr = 'https://pubgtracker.com/profile/pc/%s?region=%s' % (name, region)
  91.     return runreq(urlstr)
  92. if __name__ == "__main__":
  93.     '''    测试方法,测试执行的用户 '''
  94.     seach(name = 'Xinyibaby-Aini', region = 'as')
复制代码




运行结果:



作者: Awesome·LYG    时间: 2018-1-25 00:28
这个网站应该不用抓包吧?别人有api说明呢
作者: q374702102    时间: 2018-1-25 00:40
感谢分享,支持楼主!
作者: 1150129654    时间: 2022-7-30 09:19
666666666666666666666




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4