Samesite - proxy that can cache partial transfers

Hex Artifact Content
anonymous

Hex Artifact Content

Artifact f084a96edbb57c3cfa0527282a53f6ae5b0b6d5510be83f699e874c2f442f87a:


0000: 23 21 2f 75 73 72 2f 62 69 6e 2f 65 6e 76 20 70  #!/usr/bin/env p
0010: 79 74 68 6f 6e 33 2e 31 0a 0a 69 6d 70 6f 72 74  ython3.1..import
0020: 20 64 61 74 65 74 69 6d 65 2c 20 68 74 74 70 2e   datetime, http.
0030: 63 6f 6f 6b 69 65 6a 61 72 2c 20 6f 70 74 70 61  cookiejar, optpa
0040: 72 73 65 2c 20 6f 73 2c 20 73 79 73 2c 20 73 68  rse, os, sys, sh
0050: 65 6c 76 65 2c 20 72 65 2c 20 75 72 6c 6c 69 62  elve, re, urllib
0060: 2e 72 65 71 75 65 73 74 0a 0a 70 61 72 73 65 72  .request..parser
0070: 20 3d 20 6f 70 74 70 61 72 73 65 2e 4f 70 74 69   = optparse.Opti
0080: 6f 6e 50 61 72 73 65 72 28 29 0a 70 61 72 73 65  onParser().parse
0090: 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 27 2d 76  r.add_option('-v
00a0: 27 2c 20 27 2d 2d 76 65 72 62 6f 73 65 27 2c 20  ', '--verbose', 
00b0: 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72 65 5f  action = 'store_
00c0: 74 72 75 65 27 2c 20 64 65 73 74 20 3d 20 27 76  true', dest = 'v
00d0: 65 72 62 6f 73 65 27 2c 20 68 65 6c 70 20 3d 20  erbose', help = 
00e0: 27 74 75 72 6e 73 20 6f 6e 20 76 65 72 62 6f 73  'turns on verbos
00f0: 65 20 73 74 61 74 75 73 20 6e 6f 74 69 66 69 63  e status notific
0100: 61 74 69 6f 6e 73 27 2c 20 6d 65 74 61 76 61 72  ations', metavar
0110: 20 3d 20 27 62 6f 6f 6c 27 2c 20 64 65 66 61 75   = 'bool', defau
0120: 6c 74 20 3d 20 46 61 6c 73 65 29 0a 70 61 72 73  lt = False).pars
0130: 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 27 2d  er.add_option('-
0140: 64 27 2c 20 27 2d 2d 64 69 72 27 2c 20 61 63 74  d', '--dir', act
0150: 69 6f 6e 20 3d 20 27 73 74 6f 72 65 27 2c 20 64  ion = 'store', d
0160: 65 73 74 20 3d 20 27 64 69 72 27 2c 20 68 65 6c  est = 'dir', hel
0170: 70 20 3d 20 27 73 70 65 63 69 66 79 20 64 69 72  p = 'specify dir
0180: 65 63 74 6f 72 79 20 77 68 65 72 65 20 74 68 65  ectory where the
0190: 20 66 69 6c 65 73 20 73 68 6f 75 6c 64 20 62 65   files should be
01a0: 20 73 74 6f 72 65 64 27 2c 20 6d 65 74 61 76 61   stored', metava
01b0: 72 20 3d 20 27 73 74 72 69 6e 67 27 2c 20 64 65  r = 'string', de
01c0: 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29 0a 70 61  fault = None).pa
01d0: 72 73 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28  rser.add_option(
01e0: 27 2d 72 27 2c 20 27 2d 2d 72 6f 6f 74 27 2c 20  '-r', '--root', 
01f0: 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72 65 27  action = 'store'
0200: 2c 20 64 65 73 74 20 3d 20 27 72 6f 6f 74 27 2c  , dest = 'root',
0210: 20 68 65 6c 70 20 3d 20 27 73 70 65 63 69 66 79   help = 'specify
0220: 20 61 20 73 69 74 65 20 66 72 6f 6d 20 77 68 69   a site from whi
0230: 63 68 20 64 61 74 61 20 73 68 6f 75 6c 64 20 62  ch data should b
0240: 65 20 6d 69 72 72 6f 72 65 64 27 2c 20 6d 65 74  e mirrored', met
0250: 61 76 61 72 20 3d 20 27 73 74 72 69 6e 67 27 2c  avar = 'string',
0260: 20 64 65 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29   default = None)
0270: 0a 70 61 72 73 65 72 2e 61 64 64 5f 6f 70 74 69  .parser.add_opti
0280: 6f 6e 28 27 2d 6c 27 2c 20 27 2d 2d 6c 6f 67 27  on('-l', '--log'
0290: 2c 20 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72  , action = 'stor
02a0: 65 27 2c 20 64 65 73 74 20 3d 20 27 6c 6f 67 27  e', dest = 'log'
02b0: 2c 20 68 65 6c 70 20 3d 20 27 73 70 65 63 69 66  , help = 'specif
02c0: 79 20 61 20 6c 6f 67 20 66 69 6c 65 20 74 6f 20  y a log file to 
02d0: 70 72 6f 63 65 73 73 27 2c 20 6d 65 74 61 76 61  process', metava
02e0: 72 20 3d 20 27 73 74 72 69 6e 67 27 2c 20 64 65  r = 'string', de
02f0: 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29 0a 70 61  fault = None).pa
0300: 72 73 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28  rser.add_option(
0310: 27 2d 65 27 2c 20 27 2d 2d 73 6b 69 70 2d 65 74  '-e', '--skip-et
0320: 61 67 27 2c 20 61 63 74 69 6f 6e 20 3d 20 27 73  ag', action = 's
0330: 74 6f 72 65 5f 74 72 75 65 27 2c 20 64 65 73 74  tore_true', dest
0340: 20 3d 20 27 6e 6f 65 74 61 67 27 2c 20 68 65 6c   = 'noetag', hel
0350: 70 20 3d 20 27 64 6f 20 6e 6f 74 20 70 72 6f 63  p = 'do not proc
0360: 65 73 73 20 65 74 61 67 73 27 2c 20 6d 65 74 61  ess etags', meta
0370: 76 61 72 20 3d 20 27 62 6f 6f 6c 27 2c 20 64 65  var = 'bool', de
0380: 66 61 75 6c 74 20 3d 20 46 61 6c 73 65 29 0a 28  fault = False).(
0390: 6f 70 74 69 6f 6e 73 2c 20 61 72 67 73 29 20 3d  options, args) =
03a0: 20 70 61 72 73 65 72 2e 70 61 72 73 65 5f 61 72   parser.parse_ar
03b0: 67 73 28 29 0a 0a 61 73 73 65 72 74 20 6f 70 74  gs()..assert opt
03c0: 69 6f 6e 73 2e 64 69 72 2c 20 27 44 69 72 65 63  ions.dir, 'Direc
03d0: 74 6f 72 79 20 6e 6f 74 20 73 70 65 63 69 66 69  tory not specifi
03e0: 65 64 27 0a 61 73 73 65 72 74 20 6f 70 74 69 6f  ed'.assert optio
03f0: 6e 73 2e 72 6f 6f 74 2c 20 27 53 65 72 76 65 72  ns.root, 'Server
0400: 20 6e 6f 74 20 73 70 65 63 69 66 69 65 64 27 0a   not specified'.
0410: 61 73 73 65 72 74 20 6f 70 74 69 6f 6e 73 2e 6c  assert options.l
0420: 6f 67 2c 20 27 4c 6f 67 20 66 69 6c 65 20 6e 6f  og, 'Log file no
0430: 74 20 73 70 65 63 69 66 69 65 64 27 0a 61 73 73  t specified'.ass
0440: 65 72 74 20 6f 73 2e 61 63 63 65 73 73 28 6f 70  ert os.access(op
0450: 74 69 6f 6e 73 2e 6c 6f 67 2c 20 6f 73 2e 52 5f  tions.log, os.R_
0460: 4f 4b 29 2c 20 27 4c 6f 67 20 66 69 6c 65 20 75  OK), 'Log file u
0470: 6e 72 65 61 64 61 62 6c 65 27 0a 0a 23 20 74 68  nreadable'..# th
0480: 69 73 20 69 73 20 66 69 6c 65 20 69 6e 64 65 78  is is file index
0490: 20 2d 20 65 76 65 72 79 74 68 69 6e 67 20 69 73   - everything is
04a0: 20 73 74 6f 72 65 64 20 69 6e 20 74 68 69 73 20   stored in this 
04b0: 66 69 6c 65 0a 69 6e 64 65 78 20 3d 20 73 68 65  file.index = she
04c0: 6c 76 65 2e 6f 70 65 6e 28 6f 70 74 69 6f 6e 73  lve.open(options
04d0: 2e 64 69 72 20 2b 20 27 2f 2e 69 6e 64 65 78 27  .dir + '/.index'
04e0: 29 0a 64 65 73 63 5f 66 69 65 6c 64 73 20 3d 20  ).desc_fields = 
04f0: 28 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68  ('Content-Length
0500: 27 2c 20 27 50 72 61 67 6d 61 27 2c 20 27 4c 61  ', 'Pragma', 'La
0510: 73 74 2d 4d 6f 64 69 66 69 65 64 27 29 0a 69 67  st-Modified').ig
0520: 6e 6f 72 65 5f 66 69 65 6c 64 73 20 3d 20 28 27  nore_fields = ('
0530: 41 63 63 65 70 74 2d 52 61 6e 67 65 73 27 2c 20  Accept-Ranges', 
0540: 27 41 67 65 27 2c 20 27 43 61 63 68 65 2d 43 6f  'Age', 'Cache-Co
0550: 6e 74 72 6f 6c 27 2c 20 27 43 6f 6e 6e 65 63 74  ntrol', 'Connect
0560: 69 6f 6e 27 2c 20 27 43 6f 6e 74 65 6e 74 2d 54  ion', 'Content-T
0570: 79 70 65 27 2c 20 27 44 61 74 65 27 2c 20 27 45  ype', 'Date', 'E
0580: 78 70 69 72 65 73 27 2c 20 27 53 65 72 76 65 72  xpires', 'Server
0590: 27 2c 20 27 56 69 61 27 2c 20 27 58 2d 43 61 63  ', 'Via', 'X-Cac
05a0: 68 65 27 2c 20 27 58 2d 43 61 63 68 65 2d 4c 6f  he', 'X-Cache-Lo
05b0: 6f 6b 75 70 27 2c 20 27 58 2d 50 6f 77 65 72 65  okup', 'X-Powere
05c0: 64 2d 42 79 27 29 0a 0a 69 66 20 6e 6f 74 20 6f  d-By')..if not o
05d0: 70 74 69 6f 6e 73 2e 6e 6f 65 74 61 67 3a 0a 09  ptions.noetag:..
05e0: 64 65 73 63 5f 66 69 65 6c 64 73 20 2b 3d 20 27  desc_fields += '
05f0: 45 54 61 67 27 2c 0a 65 6c 73 65 3a 0a 09 69 67  ETag',.else:..ig
0600: 6e 6f 72 65 5f 66 69 65 6c 64 73 20 2b 3d 20 27  nore_fields += '
0610: 45 54 61 67 27 2c 0a 0a 62 6c 6f 63 6b 5f 73 69  ETag',..block_si
0620: 7a 65 20 3d 20 33 32 37 36 38 0a 0a 77 68 69 6c  ze = 32768..whil
0630: 65 20 54 72 75 65 3a 0a 09 75 6e 63 68 65 63 6b  e True:..uncheck
0640: 65 64 5f 66 69 6c 65 73 20 3d 20 73 65 74 28 29  ed_files = set()
0650: 0a 09 63 68 65 63 6b 65 64 5f 66 69 6c 65 73 20  ..checked_files 
0660: 3d 20 30 0a 0a 09 23 20 72 65 61 64 69 6e 67 20  = 0...# reading 
0670: 6c 6f 67 20 61 6e 64 20 73 74 6f 72 69 6e 67 20  log and storing 
0680: 66 6f 75 6e 64 20 75 72 6c 73 20 66 6f 72 20 70  found urls for p
0690: 72 6f 63 65 73 73 69 6e 67 0a 09 23 20 63 68 65  rocessing..# che
06a0: 63 6b 20 66 69 6c 65 20 6d 74 69 6d 65 20 58 58  ck file mtime XX
06b0: 58 0a 09 77 69 74 68 20 6f 70 65 6e 28 6f 70 74  X..with open(opt
06c0: 69 6f 6e 73 2e 6c 6f 67 2c 20 27 72 27 29 20 61  ions.log, 'r') a
06d0: 73 20 6c 6f 67 5f 66 69 6c 65 3a 0a 09 09 6c 6f  s log_file:...lo
06e0: 67 5f 6c 69 6e 65 20 3d 20 72 65 2e 63 6f 6d 70  g_line = re.comp
06f0: 69 6c 65 28 27 5e 5b 5e 20 5d 2b 20 2d 20 2d 20  ile('^[^ ]+ - - 
0700: 5c 5b 2e 2a 5d 20 22 28 47 45 54 7c 48 45 41 44  \[.*] "(GET|HEAD
0710: 29 20 28 2e 2a 3f 29 28 5c 3f 2e 2a 29 3f 20 48  ) (.*?)(\?.*)? H
0720: 54 54 50 2f 31 2e 31 22 20 28 5c 64 2b 29 20 5c  TTP/1.1" (\d+) \
0730: 64 2b 20 22 28 2e 2a 29 22 20 22 28 2e 2a 29 22  d+ "(.*)" "(.*)"
0740: 24 27 29 0a 09 09 66 6f 72 20 6c 69 6e 65 20 69  $')...for line i
0750: 6e 20 6c 6f 67 5f 66 69 6c 65 3a 0a 09 09 09 74  n log_file:....t
0760: 68 69 73 5f 6c 69 6e 65 20 3d 20 6c 6f 67 5f 6c  his_line = log_l
0770: 69 6e 65 2e 6d 61 74 63 68 28 6c 69 6e 65 2e 73  ine.match(line.s
0780: 74 72 69 70 28 29 29 0a 09 09 09 69 66 20 74 68  trip())....if th
0790: 69 73 5f 6c 69 6e 65 3a 0a 09 09 09 09 75 6e 63  is_line:.....unc
07a0: 68 65 63 6b 65 64 5f 66 69 6c 65 73 2e 61 64 64  hecked_files.add
07b0: 28 74 68 69 73 5f 6c 69 6e 65 2e 67 72 6f 75 70  (this_line.group
07c0: 28 32 29 29 0a 0a 09 66 6f 72 20 75 72 6c 20 69  (2))...for url i
07d0: 6e 20 75 6e 63 68 65 63 6b 65 64 5f 66 69 6c 65  n unchecked_file
07e0: 73 3a 0a 09 09 72 65 6c 6f 61 64 20 3d 20 46 61  s:...reload = Fa
07f0: 6c 73 65 0a 09 09 72 65 63 68 65 63 6b 20 3d 20  lse...recheck = 
0800: 46 61 6c 73 65 0a 09 09 69 6e 66 6f 20 3d 20 27  False...info = '
0810: 43 68 65 63 6b 69 6e 67 20 66 69 6c 65 3a 20 27  Checking file: '
0820: 20 2b 20 75 72 6c 0a 0a 09 09 23 20 63 72 65 61   + url....# crea
0830: 74 69 6e 67 20 65 6d 70 74 79 20 70 6c 61 63 65  ting empty place
0840: 68 6f 6c 64 65 72 20 69 6e 20 69 6e 64 65 78 0a  holder in index.
0850: 09 09 69 66 20 6e 6f 74 20 75 72 6c 20 69 6e 20  ..if not url in 
0860: 69 6e 64 65 78 3a 0a 09 09 09 69 6e 66 6f 20 2b  index:....info +
0870: 3d 20 27 5c 6e 54 68 69 73 20 6f 6e 65 20 69 73  = '\nThis one is
0880: 20 6e 65 77 2e 27 0a 09 09 09 69 6e 64 65 78 5b   new.'....index[
0890: 75 72 6c 5d 20 3d 20 7b 7d 0a 09 09 09 72 65 6c  url] = {}....rel
08a0: 6f 61 64 20 3d 20 54 72 75 65 0a 0a 09 09 23 20  oad = True....# 
08b0: 63 72 65 61 74 69 6e 67 20 66 69 6c 65 20 6e 61  creating file na
08c0: 6d 65 20 66 72 6f 6d 20 75 72 6c 0a 09 09 66 69  me from url...fi
08d0: 6c 65 5f 6e 61 6d 65 20 3d 20 6f 70 74 69 6f 6e  le_name = option
08e0: 73 2e 64 69 72 20 2b 20 72 65 2e 63 6f 6d 70 69  s.dir + re.compi
08f0: 6c 65 28 27 25 32 30 27 29 2e 73 75 62 28 27 20  le('%20').sub(' 
0900: 27 2c 20 75 72 6c 29 0a 0a 09 09 23 20 66 6f 72  ', url)....# for
0910: 63 69 62 6c 79 20 63 68 65 63 6b 69 6e 67 20 66  cibly checking f
0920: 69 6c 65 20 69 66 20 6e 6f 20 66 69 6c 65 20 70  ile if no file p
0930: 72 65 73 65 6e 74 0a 09 09 69 66 20 6e 6f 74 20  resent...if not 
0940: 72 65 6c 6f 61 64 20 61 6e 64 20 6e 6f 74 20 6f  reload and not o
0950: 73 2e 61 63 63 65 73 73 28 66 69 6c 65 5f 6e 61  s.access(file_na
0960: 6d 65 2c 20 6f 73 2e 52 5f 4f 4b 29 3a 0a 09 09  me, os.R_OK):...
0970: 09 69 6e 66 6f 20 2b 3d 20 27 5c 6e 46 69 6c 65  .info += '\nFile
0980: 20 6e 6f 74 20 66 6f 75 6e 64 20 6f 72 20 69 6e   not found or in
0990: 61 63 63 65 73 73 69 62 6c 65 2e 27 0a 09 09 09  accessible.'....
09a0: 72 65 6c 6f 61 64 20 3d 20 54 72 75 65 0a 0a 09  reload = True...
09b0: 09 23 20 66 6f 72 63 69 62 6c 79 20 63 68 65 63  .# forcibly chec
09c0: 6b 69 6e 67 20 66 69 6c 65 20 69 66 20 66 69 6c  king file if fil
09d0: 65 20 73 69 7a 65 20 64 6f 65 73 6e 27 74 20 6d  e size doesn't m
09e0: 61 74 63 68 20 77 69 74 68 20 69 6e 64 65 78 20  atch with index 
09f0: 64 61 74 61 0a 09 09 65 6c 69 66 20 6e 6f 74 20  data...elif not 
0a00: 72 65 6c 6f 61 64 20 61 6e 64 20 27 43 6f 6e 74  reload and 'Cont
0a10: 65 6e 74 2d 4c 65 6e 67 74 68 27 20 69 6e 20 69  ent-Length' in i
0a20: 6e 64 65 78 5b 75 72 6c 5d 20 61 6e 64 20 6f 73  ndex[url] and os
0a30: 2e 73 74 61 74 28 66 69 6c 65 5f 6e 61 6d 65 29  .stat(file_name)
0a40: 2e 73 74 5f 73 69 7a 65 20 21 3d 20 69 6e 74 28  .st_size != int(
0a50: 69 6e 64 65 78 5b 75 72 6c 5d 5b 27 43 6f 6e 74  index[url]['Cont
0a60: 65 6e 74 2d 4c 65 6e 67 74 68 27 5d 29 3a 0a 09  ent-Length']):..
0a70: 09 09 69 6e 66 6f 20 2b 3d 20 27 5c 6e 46 69 6c  ..info += '\nFil
0a80: 65 20 73 69 7a 65 20 69 73 20 27 20 2b 20 6f 73  e size is ' + os
0a90: 2e 73 74 61 74 28 66 69 6c 65 5f 6e 61 6d 65 29  .stat(file_name)
0aa0: 2e 73 74 5f 73 69 7a 65 20 2b 20 27 20 61 6e 64  .st_size + ' and
0ab0: 20 73 74 6f 72 65 64 20 66 69 6c 65 20 73 69 7a   stored file siz
0ac0: 65 20 69 73 20 27 20 2b 20 69 6e 64 65 78 5b 75  e is ' + index[u
0ad0: 72 6c 5d 5b 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e  rl]['Content-Len
0ae0: 67 74 68 27 5d 20 2b 20 27 2e 27 0a 09 09 09 72  gth'] + '.'....r
0af0: 65 6c 6f 61 64 20 3d 20 54 72 75 65 0a 0a 09 09  eload = True....
0b00: 23 20 66 6f 72 63 69 62 6c 79 20 63 68 65 63 6b  # forcibly check
0b10: 69 6e 67 20 66 69 6c 65 20 69 66 20 69 6e 64 65  ing file if inde
0b20: 78 20 68 6f 64 73 20 50 72 61 67 6d 61 20 68 65  x hods Pragma he
0b30: 61 64 65 72 0a 09 09 69 66 20 6e 6f 74 20 72 65  ader...if not re
0b40: 6c 6f 61 64 20 61 6e 64 20 27 50 72 61 67 6d 61  load and 'Pragma
0b50: 27 20 69 6e 20 69 6e 64 65 78 5b 75 72 6c 5d 20  ' in index[url] 
0b60: 61 6e 64 20 69 6e 64 65 78 5b 75 72 6c 5d 5b 27  and index[url]['
0b70: 50 72 61 67 6d 61 27 5d 20 3d 3d 20 27 6e 6f 2d  Pragma'] == 'no-
0b80: 63 61 63 68 65 27 3a 0a 09 09 09 69 6e 66 6f 20  cache':....info 
0b90: 2b 3d 27 5c 6e 50 72 61 67 6d 61 20 6f 6e 3a 20  +='\nPragma on: 
0ba0: 72 65 63 68 65 63 6b 20 69 6d 6d 69 6e 65 6e 74  recheck imminent
0bb0: 2e 27 0a 09 09 09 72 65 63 68 65 63 6b 20 3d 20  .'....recheck = 
0bc0: 54 72 75 65 0a 0a 09 09 69 66 20 6f 70 74 69 6f  True....if optio
0bd0: 6e 73 2e 76 65 72 62 6f 73 65 3a 0a 09 09 09 70  ns.verbose:....p
0be0: 72 69 6e 74 28 69 6e 66 6f 29 0a 0a 09 09 23 20  rint(info)....# 
0bf0: 73 6b 69 70 70 69 6e 67 20 66 69 6c 65 20 70 72  skipping file pr
0c00: 6f 63 65 73 73 69 6e 67 20 69 66 20 74 68 65 72  ocessing if ther
0c10: 65 27 73 20 6e 6f 20 6e 65 65 64 20 74 6f 20 72  e's no need to r
0c20: 65 63 68 65 63 6b 20 69 74 20 61 6e 64 20 77 65  echeck it and we
0c30: 20 68 61 76 65 20 63 68 65 63 6b 65 64 20 69 74   have checked it
0c40: 20 61 74 20 6c 65 61 73 74 20 34 20 68 6f 75 72   at least 4 hour
0c50: 73 20 61 67 6f 0a 09 09 69 66 20 6e 6f 74 20 72  s ago...if not r
0c60: 65 63 68 65 63 6b 20 61 6e 64 20 6e 6f 74 20 72  echeck and not r
0c70: 65 6c 6f 61 64 20 61 6e 64 20 27 5f 5f 74 69 6d  eload and '__tim
0c80: 65 5f 5f 27 20 69 6e 20 69 6e 64 65 78 5b 75 72  e__' in index[ur
0c90: 6c 5d 20 61 6e 64 20 28 64 61 74 65 74 69 6d 65  l] and (datetime
0ca0: 2e 64 61 74 65 74 69 6d 65 2e 6e 6f 77 28 29 20  .datetime.now() 
0cb0: 2d 20 64 61 74 65 74 69 6d 65 2e 74 69 6d 65 64  - datetime.timed
0cc0: 65 6c 74 61 28 68 6f 75 72 73 20 3d 20 34 29 20  elta(hours = 4) 
0cd0: 2d 20 69 6e 64 65 78 5b 75 72 6c 5d 5b 27 5f 5f  - index[url]['__
0ce0: 74 69 6d 65 5f 5f 27 5d 29 2e 64 61 79 73 20 3c  time__']).days <
0cf0: 20 30 3a 0a 09 09 09 63 6f 6e 74 69 6e 75 65 0a   0:....continue.
0d00: 0a 09 09 74 72 79 3a 0a 09 09 09 77 69 74 68 20  ...try:....with 
0d10: 75 72 6c 6c 69 62 2e 72 65 71 75 65 73 74 2e 75  urllib.request.u
0d20: 72 6c 6f 70 65 6e 28 6f 70 74 69 6f 6e 73 2e 72  rlopen(options.r
0d30: 6f 6f 74 20 2b 20 75 72 6c 29 20 61 73 20 73 6f  oot + url) as so
0d40: 75 72 63 65 3a 0a 09 09 09 09 6e 65 77 5f 68 65  urce:.....new_he
0d50: 61 64 65 72 73 20 3d 20 7b 7d 0a 09 09 09 09 68  aders = {}.....h
0d60: 65 61 64 65 72 73 20 3d 20 73 6f 75 72 63 65 2e  eaders = source.
0d70: 69 6e 66 6f 28 29 0a 09 09 09 09 69 66 20 6e 6f  info().....if no
0d80: 74 20 6f 70 74 69 6f 6e 73 2e 76 65 72 62 6f 73  t options.verbos
0d90: 65 3a 0a 09 09 09 09 09 70 72 69 6e 74 28 69 6e  e:......print(in
0da0: 66 6f 29 0a 0a 09 09 09 09 23 20 73 74 72 69 70  fo)......# strip
0db0: 70 69 6e 67 20 75 6e 6e 65 65 64 65 64 20 68 65  ping unneeded he
0dc0: 61 64 65 72 73 20 28 58 58 58 20 6d 61 6b 65 20  aders (XXX make 
0dd0: 74 68 69 73 20 69 6e 70 6c 61 63 65 3f 29 0a 09  this inplace?)..
0de0: 09 09 09 66 6f 72 20 68 65 61 64 65 72 20 69 6e  ...for header in
0df0: 20 68 65 61 64 65 72 73 3a 0a 09 09 09 09 09 69   headers:......i
0e00: 66 20 68 65 61 64 65 72 20 69 6e 20 64 65 73 63  f header in desc
0e10: 5f 66 69 65 6c 64 73 3a 0a 09 09 09 09 09 09 69  _fields:.......i
0e20: 66 20 68 65 61 64 65 72 20 3d 3d 20 27 50 72 61  f header == 'Pra
0e30: 67 6d 61 27 20 61 6e 64 20 68 65 61 64 65 72 73  gma' and headers
0e40: 5b 68 65 61 64 65 72 5d 20 21 3d 20 27 6e 6f 2d  [header] != 'no-
0e50: 63 61 63 68 65 27 3a 0a 09 09 09 09 09 09 09 70  cache':........p
0e60: 72 69 6e 74 28 27 50 72 61 67 6d 61 3a 27 2c 20  rint('Pragma:', 
0e70: 68 65 61 64 65 72 73 5b 68 65 61 64 65 72 5d 29  headers[header])
0e80: 0a 09 09 09 09 09 09 6e 65 77 5f 68 65 61 64 65  .......new_heade
0e90: 72 73 5b 68 65 61 64 65 72 5d 20 3d 20 68 65 61  rs[header] = hea
0ea0: 64 65 72 73 5b 68 65 61 64 65 72 5d 0a 09 09 09  ders[header]....
0eb0: 09 09 65 6c 69 66 20 6e 6f 74 20 68 65 61 64 65  ..elif not heade
0ec0: 72 20 69 6e 20 69 67 6e 6f 72 65 5f 66 69 65 6c  r in ignore_fiel
0ed0: 64 73 3a 0a 09 09 09 09 09 09 70 72 69 6e 74 28  ds:.......print(
0ee0: 27 55 6e 64 65 66 69 6e 65 64 20 68 65 61 64 65  'Undefined heade
0ef0: 72 20 22 27 2c 20 68 65 61 64 65 72 2c 20 27 22  r "', header, '"
0f00: 3a 20 27 2c 20 68 65 61 64 65 72 73 5b 68 65 61  : ', headers[hea
0f10: 64 65 72 5d 2c 20 73 65 70 3d 27 27 29 0a 0a 09  der], sep='')...
0f20: 09 09 09 23 20 63 6f 6d 70 61 72 69 6e 67 20 68  ...# comparing h
0f30: 65 61 64 65 72 73 20 77 69 74 68 20 64 61 74 61  eaders with data
0f40: 20 66 6f 75 6e 64 20 69 6e 20 69 6e 64 65 78 0a   found in index.
0f50: 09 09 09 09 23 20 69 66 20 61 6e 79 20 68 65 61  ....# if any hea
0f60: 64 65 72 20 68 61 73 20 63 68 61 6e 67 65 64 20  der has changed 
0f70: 28 65 78 63 65 70 74 20 50 72 61 67 6d 61 29 20  (except Pragma) 
0f80: 66 69 6c 65 20 69 73 20 66 75 6c 6c 79 20 64 6f  file is fully do
0f90: 77 6e 6c 6f 61 64 65 64 0a 09 09 09 09 23 20 73  wnloaded.....# s
0fa0: 61 6d 65 20 69 66 20 77 65 20 67 65 74 20 6d 6f  ame if we get mo
0fb0: 72 65 20 6f 72 20 6c 65 73 73 20 68 65 61 64 65  re or less heade
0fc0: 72 73 0a 09 09 09 09 6f 6c 64 5f 6b 65 79 73 20  rs.....old_keys 
0fd0: 3d 20 73 65 74 28 69 6e 64 65 78 5b 75 72 6c 5d  = set(index[url]
0fe0: 2e 6b 65 79 73 28 29 29 0a 09 09 09 09 6f 6c 64  .keys()).....old
0ff0: 5f 6b 65 79 73 2e 64 69 73 63 61 72 64 28 27 5f  _keys.discard('_
1000: 5f 74 69 6d 65 5f 5f 27 29 0a 09 09 09 09 6f 6c  _time__').....ol
1010: 64 5f 6b 65 79 73 2e 64 69 73 63 61 72 64 28 27  d_keys.discard('
1020: 50 72 61 67 6d 61 27 29 0a 09 09 09 09 6d 6f 72  Pragma').....mor
1030: 65 5f 6b 65 79 73 20 3d 20 73 65 74 28 6e 65 77  e_keys = set(new
1040: 5f 68 65 61 64 65 72 73 2e 6b 65 79 73 28 29 29  _headers.keys())
1050: 20 2d 20 6f 6c 64 5f 6b 65 79 73 0a 09 09 09 09   - old_keys.....
1060: 6d 6f 72 65 5f 6b 65 79 73 2e 64 69 73 63 61 72  more_keys.discar
1070: 64 28 27 50 72 61 67 6d 61 27 29 0a 09 09 09 09  d('Pragma').....
1080: 6c 65 73 73 5f 6b 65 79 73 20 3d 20 6f 6c 64 5f  less_keys = old_
1090: 6b 65 79 73 20 2d 20 73 65 74 28 6e 65 77 5f 68  keys - set(new_h
10a0: 65 61 64 65 72 73 2e 6b 65 79 73 28 29 29 0a 09  eaders.keys())..
10b0: 09 09 09 69 66 20 6c 65 6e 28 6d 6f 72 65 5f 6b  ...if len(more_k
10c0: 65 79 73 29 20 3e 20 30 3a 0a 09 09 09 09 09 69  eys) > 0:......i
10d0: 66 20 6e 6f 74 20 6c 65 6e 28 6f 6c 64 5f 6b 65  f not len(old_ke
10e0: 79 73 29 20 3d 3d 20 30 3a 0a 09 09 09 09 09 09  ys) == 0:.......
10f0: 70 72 69 6e 74 28 27 4d 6f 72 65 20 68 65 61 64  print('More head
1100: 65 72 73 20 61 70 70 65 61 72 3a 27 2c 20 6d 6f  ers appear:', mo
1110: 72 65 5f 6b 65 79 73 29 0a 09 09 09 09 09 72 65  re_keys)......re
1120: 6c 6f 61 64 20 3d 20 54 72 75 65 0a 09 09 09 09  load = True.....
1130: 65 6c 69 66 20 6c 65 6e 28 6c 65 73 73 5f 6b 65  elif len(less_ke
1140: 79 73 29 20 3e 20 30 3a 0a 09 09 09 09 09 70 72  ys) > 0:......pr
1150: 69 6e 74 28 27 4c 65 73 73 20 68 65 61 64 65 72  int('Less header
1160: 73 20 61 70 70 65 61 72 3a 27 2c 20 6c 65 73 73  s appear:', less
1170: 5f 6b 65 79 73 29 0a 09 09 09 09 65 6c 73 65 3a  _keys).....else:
1180: 0a 09 09 09 09 09 66 6f 72 20 6b 65 79 20 69 6e  ......for key in
1190: 20 69 6e 64 65 78 5b 75 72 6c 5d 2e 6b 65 79 73   index[url].keys
11a0: 28 29 3a 0a 09 09 09 09 09 09 69 66 20 6b 65 79  ():.......if key
11b0: 20 6e 6f 74 20 69 6e 20 28 27 5f 5f 74 69 6d 65   not in ('__time
11c0: 5f 5f 27 2c 20 27 50 72 61 67 6d 61 27 29 20 61  __', 'Pragma') a
11d0: 6e 64 20 6e 6f 74 20 69 6e 64 65 78 5b 75 72 6c  nd not index[url
11e0: 5d 5b 6b 65 79 5d 20 3d 3d 20 6e 65 77 5f 68 65  ][key] == new_he
11f0: 61 64 65 72 73 5b 6b 65 79 5d 3a 0a 09 09 09 09  aders[key]:.....
1200: 09 09 09 70 72 69 6e 74 28 27 48 65 61 64 65 72  ...print('Header
1210: 20 22 27 2c 20 6b 65 79 2c 20 27 22 20 63 68 61   "', key, '" cha
1220: 6e 67 65 64 20 66 72 6f 6d 20 5b 27 2c 20 69 6e  nged from [', in
1230: 64 65 78 5b 75 72 6c 5d 5b 6b 65 79 5d 2c 20 27  dex[url][key], '
1240: 5d 20 74 6f 20 5b 27 2c 20 6e 65 77 5f 68 65 61  ] to [', new_hea
1250: 64 65 72 73 5b 6b 65 79 5d 2c 20 27 5d 27 2c 20  ders[key], ']', 
1260: 73 65 70 3d 27 27 29 0a 09 09 09 09 09 09 09 72  sep='')........r
1270: 65 6c 6f 61 64 20 3d 20 54 72 75 65 0a 0a 09 09  eload = True....
1280: 09 09 23 20 64 6f 77 6e 6c 6f 61 64 69 6e 67 20  ..# downloading 
1290: 66 69 6c 65 0a 09 09 09 09 69 66 20 72 65 6c 6f  file.....if relo
12a0: 61 64 3a 0a 09 09 09 09 09 69 66 20 27 43 6f 6e  ad:......if 'Con
12b0: 74 65 6e 74 2d 4c 65 6e 67 74 68 27 20 69 6e 20  tent-Length' in 
12c0: 68 65 61 64 65 72 73 3a 0a 09 09 09 09 09 09 70  headers:.......p
12d0: 72 69 6e 74 28 27 44 6f 77 6e 6c 6f 61 64 69 6e  rint('Downloadin
12e0: 67 27 2c 20 68 65 61 64 65 72 73 5b 27 43 6f 6e  g', headers['Con
12f0: 74 65 6e 74 2d 4c 65 6e 67 74 68 27 5d 2c 20 27  tent-Length'], '
1300: 62 79 74 65 73 20 5b 27 2c 20 65 6e 64 3d 27 27  bytes [', end=''
1310: 29 0a 09 09 09 09 09 65 6c 73 65 3a 0a 09 09 09  )......else:....
1320: 09 09 09 70 72 69 6e 74 28 27 44 6f 77 6e 6c 6f  ...print('Downlo
1330: 61 64 69 6e 67 20 5b 27 2c 20 65 6e 64 3d 27 27  ading [', end=''
1340: 29 0a 09 09 09 09 09 73 79 73 2e 73 74 64 6f 75  )......sys.stdou
1350: 74 2e 66 6c 75 73 68 28 29 0a 0a 09 09 09 09 09  t.flush().......
1360: 23 20 66 69 6c 65 20 69 73 20 63 72 65 61 74 65  # file is create
1370: 64 20 61 74 20 74 65 6d 70 6f 72 61 72 79 20 6c  d at temporary l
1380: 6f 63 61 74 69 6f 6e 20 61 6e 64 20 6d 6f 76 65  ocation and move
1390: 64 20 69 6e 20 70 6c 61 63 65 20 6f 6e 6c 79 20  d in place only 
13a0: 77 68 65 6e 20 64 6f 77 6e 6c 6f 61 64 20 63 6f  when download co
13b0: 6d 70 6c 65 74 65 73 0a 09 09 09 09 09 74 65 6d  mpletes......tem
13c0: 70 5f 66 69 6c 65 20 3d 20 6f 70 65 6e 28 6f 70  p_file = open(op
13d0: 74 69 6f 6e 73 2e 64 69 72 20 2b 20 27 2f 2e 74  tions.dir + '/.t
13e0: 6d 70 27 2c 20 27 77 62 27 29 0a 09 09 09 09 09  mp', 'wb')......
13f0: 62 75 66 66 65 72 20 3d 20 73 6f 75 72 63 65 2e  buffer = source.
1400: 72 65 61 64 28 62 6c 6f 63 6b 5f 73 69 7a 65 29  read(block_size)
1410: 0a 09 09 09 09 09 62 6c 6f 63 6b 73 20 3d 20 30  ......blocks = 0
1420: 0a 09 09 09 09 09 6d 65 67 73 20 3d 20 30 0a 09  ......megs = 0..
1430: 09 09 09 09 77 68 69 6c 65 20 6c 65 6e 28 62 75  ....while len(bu
1440: 66 66 65 72 29 20 3e 20 30 3a 0a 09 09 09 09 09  ffer) > 0:......
1450: 09 74 65 6d 70 5f 66 69 6c 65 2e 77 72 69 74 65  .temp_file.write
1460: 28 62 75 66 66 65 72 29 0a 09 09 09 09 09 09 70  (buffer).......p
1470: 72 69 6e 74 28 27 2e 27 2c 20 65 6e 64 3d 27 27  rint('.', end=''
1480: 29 0a 09 09 09 09 09 09 73 79 73 2e 73 74 64 6f  ).......sys.stdo
1490: 75 74 2e 66 6c 75 73 68 28 29 0a 09 09 09 09 09  ut.flush()......
14a0: 09 62 75 66 66 65 72 20 3d 20 73 6f 75 72 63 65  .buffer = source
14b0: 2e 72 65 61 64 28 62 6c 6f 63 6b 5f 73 69 7a 65  .read(block_size
14c0: 29 0a 09 09 09 09 09 09 62 6c 6f 63 6b 73 20 2b  ).......blocks +
14d0: 3d 20 31 0a 09 09 09 09 09 09 69 66 20 62 6c 6f  = 1.......if blo
14e0: 63 6b 73 20 3e 20 31 30 32 34 2a 31 30 32 34 2f  cks > 1024*1024/
14f0: 62 6c 6f 63 6b 5f 73 69 7a 65 3a 0a 09 09 09 09  block_size:.....
1500: 09 09 09 62 6c 6f 63 6b 73 20 3d 20 62 6c 6f 63  ...blocks = bloc
1510: 6b 73 20 2d 20 31 30 32 34 2a 31 30 32 34 2f 62  ks - 1024*1024/b
1520: 6c 6f 63 6b 5f 73 69 7a 65 0a 09 09 09 09 09 09  lock_size.......
1530: 09 6d 65 67 73 20 2b 3d 20 31 0a 09 09 09 09 09  .megs += 1......
1540: 09 09 70 72 69 6e 74 28 27 7b 7d 4d 62 27 2e 66  ..print('{}Mb'.f
1550: 6f 72 6d 61 74 28 6d 65 67 73 29 2c 20 65 6e 64  ormat(megs), end
1560: 3d 27 27 29 0a 09 09 09 09 09 74 65 6d 70 5f 66  ='')......temp_f
1570: 69 6c 65 2e 63 6c 6f 73 65 28 29 0a 09 09 09 09  ile.close().....
1580: 09 70 72 69 6e 74 28 27 5d 27 29 0a 09 09 09 09  .print(']').....
1590: 09 6f 73 2e 72 65 6e 61 6d 65 73 28 6f 70 74 69  .os.renames(opti
15a0: 6f 6e 73 2e 64 69 72 20 2b 20 27 2f 2e 74 6d 70  ons.dir + '/.tmp
15b0: 27 2c 20 66 69 6c 65 5f 6e 61 6d 65 29 0a 0a 09  ', file_name)...
15c0: 09 09 09 63 68 65 63 6b 65 64 5f 66 69 6c 65 73  ...checked_files
15d0: 20 2b 3d 20 31 0a 0a 09 09 09 09 23 20 73 74 6f   += 1......# sto
15e0: 72 69 6e 67 20 6e 65 77 20 74 69 6d 65 20 6d 61  ring new time ma
15f0: 72 6b 20 61 6e 64 20 73 74 6f 72 69 6e 67 20 6e  rk and storing n
1600: 65 77 20 68 65 61 64 65 72 73 0a 09 09 09 09 6e  ew headers.....n
1610: 65 77 5f 68 65 61 64 65 72 73 5b 27 5f 5f 74 69  ew_headers['__ti
1620: 6d 65 5f 5f 27 5d 20 3d 20 64 61 74 65 74 69 6d  me__'] = datetim
1630: 65 2e 64 61 74 65 74 69 6d 65 2e 6e 6f 77 28 29  e.datetime.now()
1640: 0a 09 09 09 09 69 6e 64 65 78 5b 75 72 6c 5d 20  .....index[url] 
1650: 3d 20 6e 65 77 5f 68 65 61 64 65 72 73 0a 09 09  = new_headers...
1660: 09 09 69 6e 64 65 78 2e 73 79 6e 63 28 29 0a 0a  ..index.sync()..
1670: 09 09 65 78 63 65 70 74 20 75 72 6c 6c 69 62 2e  ..except urllib.
1680: 65 72 72 6f 72 2e 48 54 54 50 45 72 72 6f 72 20  error.HTTPError 
1690: 61 73 20 65 72 72 6f 72 3a 0a 09 09 09 23 20 69  as error:....# i
16a0: 6e 20 63 61 73 65 20 6f 66 20 65 72 72 6f 72 20  n case of error 
16b0: 77 65 20 64 6f 6e 27 74 20 6e 65 65 64 20 74 6f  we don't need to
16c0: 20 64 6f 20 61 6e 79 74 68 69 6e 67 20 61 63 74   do anything act
16d0: 75 61 6c 6c 79 2c 0a 09 09 09 23 20 69 66 20 66  ually,....# if f
16e0: 69 6c 65 20 64 6f 77 6e 6c 6f 61 64 20 73 74 61  ile download sta
16f0: 6c 6c 73 20 6f 72 20 66 61 69 6c 73 20 74 68 65  lls or fails the
1700: 20 66 69 6c 65 20 77 6f 75 6c 64 20 6e 6f 74 20   file would not 
1710: 62 65 20 6d 6f 76 65 64 20 74 6f 20 69 74 27 73  be moved to it's
1720: 20 6c 6f 63 61 74 69 6f 6e 0a 09 09 09 70 72 69   location....pri
1730: 6e 74 28 65 72 72 6f 72 29 0a 0a 09 69 66 20 6f  nt(error)...if o
1740: 70 74 69 6f 6e 73 2e 76 65 72 62 6f 73 65 3a 0a  ptions.verbose:.
1750: 09 09 70 72 69 6e 74 28 27 5b 27 2c 20 6c 65 6e  ..print('[', len
1760: 28 75 6e 63 68 65 63 6b 65 64 5f 66 69 6c 65 73  (unchecked_files
1770: 29 2c 20 27 2f 27 2c 20 63 68 65 63 6b 65 64 5f  ), '/', checked_
1780: 66 69 6c 65 73 2c 20 27 5d 27 29 0a 0a 09 23 20  files, ']')...# 
1790: 63 68 65 63 6b 69 6e 67 20 69 66 20 74 68 65 72  checking if ther
17a0: 65 20 77 65 72 65 20 61 6e 79 20 66 69 6c 65 73  e were any files
17b0: 20 64 6f 77 6e 6c 6f 61 64 65 64 2c 20 69 66 20   downloaded, if 
17c0: 79 65 73 20 2d 20 72 65 73 74 61 72 74 69 6e 67  yes - restarting
17d0: 20 73 65 71 75 65 6e 63 65 0a 09 69 66 20 63 68   sequence..if ch
17e0: 65 63 6b 65 64 5f 66 69 6c 65 73 20 3d 3d 20 30  ecked_files == 0
17f0: 3a 0a 09 09 62 72 65 61 6b 0a                    :...break.