0000: 23 21 2f 75 73 72 2f 62 69 6e 2f 65 6e 76 20 70 #!/usr/bin/env p
0010: 79 74 68 6f 6e 33 2e 31 0a 0a 69 6d 70 6f 72 74 ython3.1..import
0020: 20 64 61 74 65 74 69 6d 65 2c 20 68 74 74 70 2e datetime, http.
0030: 63 6f 6f 6b 69 65 6a 61 72 2c 20 6f 70 74 70 61 cookiejar, optpa
0040: 72 73 65 2c 20 6f 73 2c 20 73 79 73 2c 20 73 68 rse, os, sys, sh
0050: 65 6c 76 65 2c 20 72 65 2c 20 75 72 6c 6c 69 62 elve, re, urllib
0060: 2e 72 65 71 75 65 73 74 0a 0a 70 61 72 73 65 72 .request..parser
0070: 20 3d 20 6f 70 74 70 61 72 73 65 2e 4f 70 74 69 = optparse.Opti
0080: 6f 6e 50 61 72 73 65 72 28 29 0a 70 61 72 73 65 onParser().parse
0090: 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 27 2d 76 r.add_option('-v
00a0: 27 2c 20 27 2d 2d 76 65 72 62 6f 73 65 27 2c 20 ', '--verbose',
00b0: 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72 65 5f action = 'store_
00c0: 74 72 75 65 27 2c 20 64 65 73 74 20 3d 20 27 76 true', dest = 'v
00d0: 65 72 62 6f 73 65 27 2c 20 68 65 6c 70 20 3d 20 erbose', help =
00e0: 27 74 75 72 6e 73 20 6f 6e 20 76 65 72 62 6f 73 'turns on verbos
00f0: 65 20 73 74 61 74 75 73 20 6e 6f 74 69 66 69 63 e status notific
0100: 61 74 69 6f 6e 73 27 2c 20 6d 65 74 61 76 61 72 ations', metavar
0110: 20 3d 20 27 62 6f 6f 6c 27 2c 20 64 65 66 61 75 = 'bool', defau
0120: 6c 74 20 3d 20 46 61 6c 73 65 29 0a 70 61 72 73 lt = False).pars
0130: 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 27 2d er.add_option('-
0140: 64 27 2c 20 27 2d 2d 64 69 72 27 2c 20 61 63 74 d', '--dir', act
0150: 69 6f 6e 20 3d 20 27 73 74 6f 72 65 27 2c 20 64 ion = 'store', d
0160: 65 73 74 20 3d 20 27 64 69 72 27 2c 20 68 65 6c est = 'dir', hel
0170: 70 20 3d 20 27 73 70 65 63 69 66 79 20 64 69 72 p = 'specify dir
0180: 65 63 74 6f 72 79 20 77 68 65 72 65 20 74 68 65 ectory where the
0190: 20 66 69 6c 65 73 20 73 68 6f 75 6c 64 20 62 65 files should be
01a0: 20 73 74 6f 72 65 64 27 2c 20 6d 65 74 61 76 61 stored', metava
01b0: 72 20 3d 20 27 73 74 72 69 6e 67 27 2c 20 64 65 r = 'string', de
01c0: 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29 0a 70 61 fault = None).pa
01d0: 72 73 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 rser.add_option(
01e0: 27 2d 72 27 2c 20 27 2d 2d 72 6f 6f 74 27 2c 20 '-r', '--root',
01f0: 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72 65 27 action = 'store'
0200: 2c 20 64 65 73 74 20 3d 20 27 72 6f 6f 74 27 2c , dest = 'root',
0210: 20 68 65 6c 70 20 3d 20 27 73 70 65 63 69 66 79 help = 'specify
0220: 20 61 20 73 69 74 65 20 66 72 6f 6d 20 77 68 69 a site from whi
0230: 63 68 20 64 61 74 61 20 73 68 6f 75 6c 64 20 62 ch data should b
0240: 65 20 6d 69 72 72 6f 72 65 64 27 2c 20 6d 65 74 e mirrored', met
0250: 61 76 61 72 20 3d 20 27 73 74 72 69 6e 67 27 2c avar = 'string',
0260: 20 64 65 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29 default = None)
0270: 0a 70 61 72 73 65 72 2e 61 64 64 5f 6f 70 74 69 .parser.add_opti
0280: 6f 6e 28 27 2d 6c 27 2c 20 27 2d 2d 6c 6f 67 27 on('-l', '--log'
0290: 2c 20 61 63 74 69 6f 6e 20 3d 20 27 73 74 6f 72 , action = 'stor
02a0: 65 27 2c 20 64 65 73 74 20 3d 20 27 6c 6f 67 27 e', dest = 'log'
02b0: 2c 20 68 65 6c 70 20 3d 20 27 73 70 65 63 69 66 , help = 'specif
02c0: 79 20 61 20 6c 6f 67 20 66 69 6c 65 20 74 6f 20 y a log file to
02d0: 70 72 6f 63 65 73 73 27 2c 20 6d 65 74 61 76 61 process', metava
02e0: 72 20 3d 20 27 73 74 72 69 6e 67 27 2c 20 64 65 r = 'string', de
02f0: 66 61 75 6c 74 20 3d 20 4e 6f 6e 65 29 0a 70 61 fault = None).pa
0300: 72 73 65 72 2e 61 64 64 5f 6f 70 74 69 6f 6e 28 rser.add_option(
0310: 27 2d 65 27 2c 20 27 2d 2d 73 6b 69 70 2d 65 74 '-e', '--skip-et
0320: 61 67 27 2c 20 61 63 74 69 6f 6e 20 3d 20 27 73 ag', action = 's
0330: 74 6f 72 65 5f 74 72 75 65 27 2c 20 64 65 73 74 tore_true', dest
0340: 20 3d 20 27 6e 6f 65 74 61 67 27 2c 20 68 65 6c = 'noetag', hel
0350: 70 20 3d 20 27 64 6f 20 6e 6f 74 20 70 72 6f 63 p = 'do not proc
0360: 65 73 73 20 65 74 61 67 73 27 2c 20 6d 65 74 61 ess etags', meta
0370: 76 61 72 20 3d 20 27 62 6f 6f 6c 27 2c 20 64 65 var = 'bool', de
0380: 66 61 75 6c 74 20 3d 20 46 61 6c 73 65 29 0a 28 fault = False).(
0390: 6f 70 74 69 6f 6e 73 2c 20 61 72 67 73 29 20 3d options, args) =
03a0: 20 70 61 72 73 65 72 2e 70 61 72 73 65 5f 61 72 parser.parse_ar
03b0: 67 73 28 29 0a 0a 61 73 73 65 72 74 20 6f 70 74 gs()..assert opt
03c0: 69 6f 6e 73 2e 64 69 72 2c 20 27 44 69 72 65 63 ions.dir, 'Direc
03d0: 74 6f 72 79 20 6e 6f 74 20 73 70 65 63 69 66 69 tory not specifi
03e0: 65 64 27 0a 61 73 73 65 72 74 20 6f 70 74 69 6f ed'.assert optio
03f0: 6e 73 2e 72 6f 6f 74 2c 20 27 53 65 72 76 65 72 ns.root, 'Server
0400: 20 6e 6f 74 20 73 70 65 63 69 66 69 65 64 27 0a not specified'.
0410: 61 73 73 65 72 74 20 6f 70 74 69 6f 6e 73 2e 6c assert options.l
0420: 6f 67 2c 20 27 4c 6f 67 20 66 69 6c 65 20 6e 6f og, 'Log file no
0430: 74 20 73 70 65 63 69 66 69 65 64 27 0a 61 73 73 t specified'.ass
0440: 65 72 74 20 6f 73 2e 61 63 63 65 73 73 28 6f 70 ert os.access(op
0450: 74 69 6f 6e 73 2e 6c 6f 67 2c 20 6f 73 2e 52 5f tions.log, os.R_
0460: 4f 4b 29 2c 20 27 4c 6f 67 20 66 69 6c 65 20 75 OK), 'Log file u
0470: 6e 72 65 61 64 61 62 6c 65 27 0a 0a 23 20 74 68 nreadable'..# th
0480: 69 73 20 69 73 20 66 69 6c 65 20 69 6e 64 65 78 is is file index
0490: 20 2d 20 65 76 65 72 79 74 68 69 6e 67 20 69 73 - everything is
04a0: 20 73 74 6f 72 65 64 20 69 6e 20 74 68 69 73 20 stored in this
04b0: 66 69 6c 65 0a 69 6e 64 65 78 20 3d 20 73 68 65 file.index = she
04c0: 6c 76 65 2e 6f 70 65 6e 28 6f 70 74 69 6f 6e 73 lve.open(options
04d0: 2e 64 69 72 20 2b 20 27 2f 2e 69 6e 64 65 78 27 .dir + '/.index'
04e0: 29 0a 64 65 73 63 5f 66 69 65 6c 64 73 20 3d 20 ).desc_fields =
04f0: 28 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68 ('Content-Length
0500: 27 2c 20 27 50 72 61 67 6d 61 27 2c 20 27 4c 61 ', 'Pragma', 'La
0510: 73 74 2d 4d 6f 64 69 66 69 65 64 27 29 0a 69 67 st-Modified').ig
0520: 6e 6f 72 65 5f 66 69 65 6c 64 73 20 3d 20 28 27 nore_fields = ('
0530: 41 63 63 65 70 74 2d 52 61 6e 67 65 73 27 2c 20 Accept-Ranges',
0540: 27 41 67 65 27 2c 20 27 43 61 63 68 65 2d 43 6f 'Age', 'Cache-Co
0550: 6e 74 72 6f 6c 27 2c 20 27 43 6f 6e 6e 65 63 74 ntrol', 'Connect
0560: 69 6f 6e 27 2c 20 27 43 6f 6e 74 65 6e 74 2d 54 ion', 'Content-T
0570: 79 70 65 27 2c 20 27 44 61 74 65 27 2c 20 27 45 ype', 'Date', 'E
0580: 78 70 69 72 65 73 27 2c 20 27 53 65 72 76 65 72 xpires', 'Server
0590: 27 2c 20 27 56 69 61 27 2c 20 27 58 2d 43 61 63 ', 'Via', 'X-Cac
05a0: 68 65 27 2c 20 27 58 2d 43 61 63 68 65 2d 4c 6f he', 'X-Cache-Lo
05b0: 6f 6b 75 70 27 2c 20 27 58 2d 50 6f 77 65 72 65 okup', 'X-Powere
05c0: 64 2d 42 79 27 29 0a 0a 69 66 20 6e 6f 74 20 6f d-By')..if not o
05d0: 70 74 69 6f 6e 73 2e 6e 6f 65 74 61 67 3a 0a 09 ptions.noetag:..
05e0: 64 65 73 63 5f 66 69 65 6c 64 73 20 2b 3d 20 27 desc_fields += '
05f0: 45 54 61 67 27 2c 0a 65 6c 73 65 3a 0a 09 69 67 ETag',.else:..ig
0600: 6e 6f 72 65 5f 66 69 65 6c 64 73 20 2b 3d 20 27 nore_fields += '
0610: 45 54 61 67 27 2c 0a 0a 62 6c 6f 63 6b 5f 73 69 ETag',..block_si
0620: 7a 65 20 3d 20 33 32 37 36 38 0a 0a 77 68 69 6c ze = 32768..whil
0630: 65 20 54 72 75 65 3a 0a 09 75 6e 63 68 65 63 6b e True:..uncheck
0640: 65 64 5f 66 69 6c 65 73 20 3d 20 73 65 74 28 29 ed_files = set()
0650: 0a 09 63 68 65 63 6b 65 64 5f 66 69 6c 65 73 20 ..checked_files
0660: 3d 20 30 0a 0a 09 23 20 72 65 61 64 69 6e 67 20 = 0...# reading
0670: 6c 6f 67 20 61 6e 64 20 73 74 6f 72 69 6e 67 20 log and storing
0680: 66 6f 75 6e 64 20 75 72 6c 73 20 66 6f 72 20 70 found urls for p
0690: 72 6f 63 65 73 73 69 6e 67 0a 09 23 20 63 68 65 rocessing..# che
06a0: 63 6b 20 66 69 6c 65 20 6d 74 69 6d 65 20 58 58 ck file mtime XX
06b0: 58 0a 09 77 69 74 68 20 6f 70 65 6e 28 6f 70 74 X..with open(opt
06c0: 69 6f 6e 73 2e 6c 6f 67 2c 20 27 72 27 29 20 61 ions.log, 'r') a
06d0: 73 20 6c 6f 67 5f 66 69 6c 65 3a 0a 09 09 6c 6f s log_file:...lo
06e0: 67 5f 6c 69 6e 65 20 3d 20 72 65 2e 63 6f 6d 70 g_line = re.comp
06f0: 69 6c 65 28 27 5e 5b 5e 20 5d 2b 20 2d 20 2d 20 ile('^[^ ]+ - -
0700: 5c 5b 2e 2a 5d 20 22 28 47 45 54 7c 48 45 41 44 \[.*] "(GET|HEAD
0710: 29 20 28 2e 2a 3f 29 28 5c 3f 2e 2a 29 3f 20 48 ) (.*?)(\?.*)? H
0720: 54 54 50 2f 31 2e 31 22 20 28 5c 64 2b 29 20 5c TTP/1.1" (\d+) \
0730: 64 2b 20 22 28 2e 2a 29 22 20 22 28 2e 2a 29 22 d+ "(.*)" "(.*)"
0740: 24 27 29 0a 09 09 66 6f 72 20 6c 69 6e 65 20 69 $')...for line i
0750: 6e 20 6c 6f 67 5f 66 69 6c 65 3a 0a 09 09 09 74 n log_file:....t
0760: 68 69 73 5f 6c 69 6e 65 20 3d 20 6c 6f 67 5f 6c his_line = log_l
0770: 69 6e 65 2e 6d 61 74 63 68 28 6c 69 6e 65 2e 73 ine.match(line.s
0780: 74 72 69 70 28 29 29 0a 09 09 09 69 66 20 74 68 trip())....if th
0790: 69 73 5f 6c 69 6e 65 3a 0a 09 09 09 09 75 6e 63 is_line:.....unc
07a0: 68 65 63 6b 65 64 5f 66 69 6c 65 73 2e 61 64 64 hecked_files.add
07b0: 28 74 68 69 73 5f 6c 69 6e 65 2e 67 72 6f 75 70 (this_line.group
07c0: 28 32 29 29 0a 0a 09 66 6f 72 20 75 72 6c 20 69 (2))...for url i
07d0: 6e 20 75 6e 63 68 65 63 6b 65 64 5f 66 69 6c 65 n unchecked_file
07e0: 73 3a 0a 09 09 72 65 6c 6f 61 64 20 3d 20 46 61 s:...reload = Fa
07f0: 6c 73 65 0a 09 09 72 65 63 68 65 63 6b 20 3d 20 lse...recheck =
0800: 46 61 6c 73 65 0a 09 09 70 72 69 6e 74 28 27 43 False...print('C
0810: 68 65 63 6b 69 6e 67 20 66 69 6c 65 3a 27 2c 20 hecking file:',
0820: 75 72 6c 29 0a 0a 09 09 23 20 63 72 65 61 74 69 url)....# creati
0830: 6e 67 20 65 6d 70 74 79 20 70 6c 61 63 65 68 6f ng empty placeho
0840: 6c 64 65 72 20 69 6e 20 69 6e 64 65 78 0a 09 09 lder in index...
0850: 69 66 20 6e 6f 74 20 75 72 6c 20 69 6e 20 69 6e if not url in in
0860: 64 65 78 3a 0a 09 09 09 70 72 69 6e 74 28 27 54 dex:....print('T
0870: 68 69 73 20 6f 6e 65 20 69 73 20 6e 65 77 2e 27 his one is new.'
0880: 29 0a 09 09 09 69 6e 64 65 78 5b 75 72 6c 5d 20 )....index[url]
0890: 3d 20 7b 7d 0a 09 09 09 72 65 6c 6f 61 64 20 3d = {}....reload =
08a0: 20 54 72 75 65 0a 0a 09 09 23 20 63 72 65 61 74 True....# creat
08b0: 69 6e 67 20 66 69 6c 65 20 6e 61 6d 65 20 66 72 ing file name fr
08c0: 6f 6d 20 75 72 6c 0a 09 09 66 69 6c 65 5f 6e 61 om url...file_na
08d0: 6d 65 20 3d 20 6f 70 74 69 6f 6e 73 2e 64 69 72 me = options.dir
08e0: 20 2b 20 72 65 2e 63 6f 6d 70 69 6c 65 28 27 25 + re.compile('%
08f0: 32 30 27 29 2e 73 75 62 28 27 20 27 2c 20 75 72 20').sub(' ', ur
0900: 6c 29 0a 0a 09 09 23 20 66 6f 72 63 69 62 6c 79 l)....# forcibly
0910: 20 63 68 65 63 6b 69 6e 67 20 66 69 6c 65 20 69 checking file i
0920: 66 20 6e 6f 20 66 69 6c 65 20 70 72 65 73 65 6e f no file presen
0930: 74 0a 09 09 69 66 20 6e 6f 74 20 72 65 6c 6f 61 t...if not reloa
0940: 64 20 61 6e 64 20 6e 6f 74 20 6f 73 2e 61 63 63 d and not os.acc
0950: 65 73 73 28 66 69 6c 65 5f 6e 61 6d 65 2c 20 6f ess(file_name, o
0960: 73 2e 52 5f 4f 4b 29 3a 0a 09 09 09 70 72 69 6e s.R_OK):....prin
0970: 74 28 27 46 69 6c 65 20 6e 6f 74 20 66 6f 75 6e t('File not foun
0980: 64 20 6f 72 20 69 6e 61 63 63 65 73 73 69 62 6c d or inaccessibl
0990: 65 2e 27 29 0a 09 09 09 72 65 6c 6f 61 64 20 3d e.')....reload =
09a0: 20 54 72 75 65 0a 0a 09 09 23 20 66 6f 72 63 69 True....# forci
09b0: 62 6c 79 20 63 68 65 63 6b 69 6e 67 20 66 69 6c bly checking fil
09c0: 65 20 69 66 20 66 69 6c 65 20 73 69 7a 65 20 64 e if file size d
09d0: 6f 65 73 6e 27 74 20 6d 61 74 63 68 20 77 69 74 oesn't match wit
09e0: 68 20 69 6e 64 65 78 20 64 61 74 61 0a 09 09 65 h index data...e
09f0: 6c 69 66 20 6e 6f 74 20 72 65 6c 6f 61 64 20 61 lif not reload a
0a00: 6e 64 20 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 nd 'Content-Leng
0a10: 74 68 27 20 69 6e 20 69 6e 64 65 78 5b 75 72 6c th' in index[url
0a20: 5d 20 61 6e 64 20 6f 73 2e 73 74 61 74 28 66 69 ] and os.stat(fi
0a30: 6c 65 5f 6e 61 6d 65 29 2e 73 74 5f 73 69 7a 65 le_name).st_size
0a40: 20 21 3d 20 69 6e 74 28 69 6e 64 65 78 5b 75 72 != int(index[ur
0a50: 6c 5d 5b 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 l]['Content-Leng
0a60: 74 68 27 5d 29 3a 0a 09 09 09 70 72 69 6e 74 28 th']):....print(
0a70: 27 46 69 6c 65 20 73 69 7a 65 20 69 73 20 27 2c 'File size is ',
0a80: 20 6f 73 2e 73 74 61 74 28 66 69 6c 65 5f 6e 61 os.stat(file_na
0a90: 6d 65 29 2e 73 74 5f 73 69 7a 65 2c 20 27 20 61 me).st_size, ' a
0aa0: 6e 64 20 73 74 6f 72 65 64 20 66 69 6c 65 20 73 nd stored file s
0ab0: 69 7a 65 20 69 73 20 27 2c 20 69 6e 64 65 78 5b ize is ', index[
0ac0: 75 72 6c 5d 5b 27 43 6f 6e 74 65 6e 74 2d 4c 65 url]['Content-Le
0ad0: 6e 67 74 68 27 5d 2c 20 27 2e 27 2c 20 73 65 70 ngth'], '.', sep
0ae0: 3d 27 27 29 0a 09 09 09 72 65 6c 6f 61 64 20 3d ='')....reload =
0af0: 20 54 72 75 65 0a 0a 09 09 23 20 66 6f 72 63 69 True....# forci
0b00: 62 6c 79 20 63 68 65 63 6b 69 6e 67 20 66 69 6c bly checking fil
0b10: 65 20 69 66 20 69 6e 64 65 78 20 68 6f 64 73 20 e if index hods
0b20: 50 72 61 67 6d 61 20 68 65 61 64 65 72 0a 09 09 Pragma header...
0b30: 69 66 20 6e 6f 74 20 72 65 6c 6f 61 64 20 61 6e if not reload an
0b40: 64 20 27 50 72 61 67 6d 61 27 20 69 6e 20 69 6e d 'Pragma' in in
0b50: 64 65 78 5b 75 72 6c 5d 20 61 6e 64 20 69 6e 64 dex[url] and ind
0b60: 65 78 5b 75 72 6c 5d 5b 27 50 72 61 67 6d 61 27 ex[url]['Pragma'
0b70: 5d 20 3d 3d 20 27 6e 6f 2d 63 61 63 68 65 27 3a ] == 'no-cache':
0b80: 0a 09 09 09 70 72 69 6e 74 28 27 50 72 61 67 6d ....print('Pragm
0b90: 61 20 6f 6e 3a 20 72 65 63 68 65 63 6b 20 69 6d a on: recheck im
0ba0: 6d 69 6e 65 6e 74 2e 27 29 0a 09 09 09 72 65 63 minent.')....rec
0bb0: 68 65 63 6b 20 3d 20 54 72 75 65 0a 0a 09 09 23 heck = True....#
0bc0: 20 73 6b 69 70 70 69 6e 67 20 66 69 6c 65 20 70 skipping file p
0bd0: 72 6f 63 65 73 73 69 6e 67 20 69 66 20 74 68 65 rocessing if the
0be0: 72 65 27 73 20 6e 6f 20 6e 65 65 64 20 74 6f 20 re's no need to
0bf0: 72 65 63 68 65 63 6b 20 69 74 20 61 6e 64 20 77 recheck it and w
0c00: 65 20 68 61 76 65 20 63 68 65 63 6b 65 64 20 69 e have checked i
0c10: 74 20 61 74 20 6c 65 61 73 74 20 34 20 68 6f 75 t at least 4 hou
0c20: 72 73 20 61 67 6f 0a 09 09 69 66 20 6e 6f 74 20 rs ago...if not
0c30: 72 65 63 68 65 63 6b 20 61 6e 64 20 6e 6f 74 20 recheck and not
0c40: 72 65 6c 6f 61 64 20 61 6e 64 20 27 5f 5f 74 69 reload and '__ti
0c50: 6d 65 5f 5f 27 20 69 6e 20 69 6e 64 65 78 5b 75 me__' in index[u
0c60: 72 6c 5d 20 61 6e 64 20 28 64 61 74 65 74 69 6d rl] and (datetim
0c70: 65 2e 64 61 74 65 74 69 6d 65 2e 6e 6f 77 28 29 e.datetime.now()
0c80: 20 2d 20 64 61 74 65 74 69 6d 65 2e 74 69 6d 65 - datetime.time
0c90: 64 65 6c 74 61 28 68 6f 75 72 73 20 3d 20 34 29 delta(hours = 4)
0ca0: 20 2d 20 69 6e 64 65 78 5b 75 72 6c 5d 5b 27 5f - index[url]['_
0cb0: 5f 74 69 6d 65 5f 5f 27 5d 29 2e 64 61 79 73 20 _time__']).days
0cc0: 3c 20 30 3a 0a 09 09 09 63 6f 6e 74 69 6e 75 65 < 0:....continue
0cd0: 0a 0a 09 09 74 72 79 3a 0a 09 09 09 77 69 74 68 ....try:....with
0ce0: 20 75 72 6c 6c 69 62 2e 72 65 71 75 65 73 74 2e urllib.request.
0cf0: 75 72 6c 6f 70 65 6e 28 6f 70 74 69 6f 6e 73 2e urlopen(options.
0d00: 72 6f 6f 74 20 2b 20 75 72 6c 29 20 61 73 20 73 root + url) as s
0d10: 6f 75 72 63 65 3a 0a 09 09 09 09 6e 65 77 5f 68 ource:.....new_h
0d20: 65 61 64 65 72 73 20 3d 20 7b 7d 0a 09 09 09 09 eaders = {}.....
0d30: 68 65 61 64 65 72 73 20 3d 20 73 6f 75 72 63 65 headers = source
0d40: 2e 69 6e 66 6f 28 29 0a 0a 09 09 09 09 23 20 73 .info()......# s
0d50: 74 72 69 70 70 69 6e 67 20 75 6e 6e 65 65 64 65 tripping unneede
0d60: 64 20 68 65 61 64 65 72 73 20 28 58 58 58 20 6d d headers (XXX m
0d70: 61 6b 65 20 74 68 69 73 20 69 6e 70 6c 61 63 65 ake this inplace
0d80: 3f 29 0a 09 09 09 09 66 6f 72 20 68 65 61 64 65 ?).....for heade
0d90: 72 20 69 6e 20 68 65 61 64 65 72 73 3a 0a 09 09 r in headers:...
0da0: 09 09 09 69 66 20 68 65 61 64 65 72 20 69 6e 20 ...if header in
0db0: 64 65 73 63 5f 66 69 65 6c 64 73 3a 0a 09 09 09 desc_fields:....
0dc0: 09 09 09 69 66 20 68 65 61 64 65 72 20 3d 3d 20 ...if header ==
0dd0: 27 50 72 61 67 6d 61 27 20 61 6e 64 20 68 65 61 'Pragma' and hea
0de0: 64 65 72 73 5b 68 65 61 64 65 72 5d 20 21 3d 20 ders[header] !=
0df0: 27 6e 6f 2d 63 61 63 68 65 27 3a 0a 09 09 09 09 'no-cache':.....
0e00: 09 09 09 70 72 69 6e 74 28 27 50 72 61 67 6d 61 ...print('Pragma
0e10: 3a 27 2c 20 68 65 61 64 65 72 73 5b 68 65 61 64 :', headers[head
0e20: 65 72 5d 29 0a 09 09 09 09 09 09 6e 65 77 5f 68 er]).......new_h
0e30: 65 61 64 65 72 73 5b 68 65 61 64 65 72 5d 20 3d eaders[header] =
0e40: 20 68 65 61 64 65 72 73 5b 68 65 61 64 65 72 5d headers[header]
0e50: 0a 09 09 09 09 09 65 6c 69 66 20 6e 6f 74 20 68 ......elif not h
0e60: 65 61 64 65 72 20 69 6e 20 69 67 6e 6f 72 65 5f eader in ignore_
0e70: 66 69 65 6c 64 73 3a 0a 09 09 09 09 09 09 70 72 fields:.......pr
0e80: 69 6e 74 28 27 55 6e 64 65 66 69 6e 65 64 20 68 int('Undefined h
0e90: 65 61 64 65 72 20 22 27 2c 20 68 65 61 64 65 72 eader "', header
0ea0: 2c 20 27 22 3a 20 27 2c 20 68 65 61 64 65 72 73 , '": ', headers
0eb0: 5b 68 65 61 64 65 72 5d 2c 20 73 65 70 3d 27 27 [header], sep=''
0ec0: 29 0a 0a 09 09 09 09 23 20 63 6f 6d 70 61 72 69 )......# compari
0ed0: 6e 67 20 68 65 61 64 65 72 73 20 77 69 74 68 20 ng headers with
0ee0: 64 61 74 61 20 66 6f 75 6e 64 20 69 6e 20 69 6e data found in in
0ef0: 64 65 78 0a 09 09 09 09 23 20 69 66 20 61 6e 79 dex.....# if any
0f00: 20 68 65 61 64 65 72 20 68 61 73 20 63 68 61 6e header has chan
0f10: 67 65 64 20 28 65 78 63 65 70 74 20 50 72 61 67 ged (except Prag
0f20: 6d 61 29 20 66 69 6c 65 20 69 73 20 66 75 6c 6c ma) file is full
0f30: 79 20 64 6f 77 6e 6c 6f 61 64 65 64 0a 09 09 09 y downloaded....
0f40: 09 23 20 73 61 6d 65 20 69 66 20 77 65 20 67 65 .# same if we ge
0f50: 74 20 6d 6f 72 65 20 6f 72 20 6c 65 73 73 20 68 t more or less h
0f60: 65 61 64 65 72 73 0a 09 09 09 09 6f 6c 64 5f 6b eaders.....old_k
0f70: 65 79 73 20 3d 20 73 65 74 28 69 6e 64 65 78 5b eys = set(index[
0f80: 75 72 6c 5d 2e 6b 65 79 73 28 29 29 0a 09 09 09 url].keys())....
0f90: 09 6f 6c 64 5f 6b 65 79 73 2e 64 69 73 63 61 72 .old_keys.discar
0fa0: 64 28 27 5f 5f 74 69 6d 65 5f 5f 27 29 0a 09 09 d('__time__')...
0fb0: 09 09 6f 6c 64 5f 6b 65 79 73 2e 64 69 73 63 61 ..old_keys.disca
0fc0: 72 64 28 27 50 72 61 67 6d 61 27 29 0a 09 09 09 rd('Pragma')....
0fd0: 09 6d 6f 72 65 5f 6b 65 79 73 20 3d 20 73 65 74 .more_keys = set
0fe0: 28 6e 65 77 5f 68 65 61 64 65 72 73 2e 6b 65 79 (new_headers.key
0ff0: 73 28 29 29 20 2d 20 6f 6c 64 5f 6b 65 79 73 0a s()) - old_keys.
1000: 09 09 09 09 6d 6f 72 65 5f 6b 65 79 73 2e 64 69 ....more_keys.di
1010: 73 63 61 72 64 28 27 50 72 61 67 6d 61 27 29 0a scard('Pragma').
1020: 09 09 09 09 6c 65 73 73 5f 6b 65 79 73 20 3d 20 ....less_keys =
1030: 6f 6c 64 5f 6b 65 79 73 20 2d 20 73 65 74 28 6e old_keys - set(n
1040: 65 77 5f 68 65 61 64 65 72 73 2e 6b 65 79 73 28 ew_headers.keys(
1050: 29 29 0a 09 09 09 09 69 66 20 6c 65 6e 28 6d 6f )).....if len(mo
1060: 72 65 5f 6b 65 79 73 29 20 3e 20 30 3a 0a 09 09 re_keys) > 0:...
1070: 09 09 09 69 66 20 6e 6f 74 20 6c 65 6e 28 6f 6c ...if not len(ol
1080: 64 5f 6b 65 79 73 29 20 3d 3d 20 30 3a 0a 09 09 d_keys) == 0:...
1090: 09 09 09 09 70 72 69 6e 74 28 27 4d 6f 72 65 20 ....print('More
10a0: 68 65 61 64 65 72 73 20 61 70 70 65 61 72 3a 27 headers appear:'
10b0: 2c 20 6d 6f 72 65 5f 6b 65 79 73 29 0a 09 09 09 , more_keys)....
10c0: 09 09 72 65 6c 6f 61 64 20 3d 20 54 72 75 65 0a ..reload = True.
10d0: 09 09 09 09 65 6c 69 66 20 6c 65 6e 28 6c 65 73 ....elif len(les
10e0: 73 5f 6b 65 79 73 29 20 3e 20 30 3a 0a 09 09 09 s_keys) > 0:....
10f0: 09 09 70 72 69 6e 74 28 27 4c 65 73 73 20 68 65 ..print('Less he
1100: 61 64 65 72 73 20 61 70 70 65 61 72 3a 27 2c 20 aders appear:',
1110: 6c 65 73 73 5f 6b 65 79 73 29 0a 09 09 09 09 65 less_keys).....e
1120: 6c 73 65 3a 0a 09 09 09 09 09 66 6f 72 20 6b 65 lse:......for ke
1130: 79 20 69 6e 20 69 6e 64 65 78 5b 75 72 6c 5d 2e y in index[url].
1140: 6b 65 79 73 28 29 3a 0a 09 09 09 09 09 09 69 66 keys():.......if
1150: 20 6b 65 79 20 6e 6f 74 20 69 6e 20 28 27 5f 5f key not in ('__
1160: 74 69 6d 65 5f 5f 27 2c 20 27 50 72 61 67 6d 61 time__', 'Pragma
1170: 27 29 20 61 6e 64 20 6e 6f 74 20 69 6e 64 65 78 ') and not index
1180: 5b 75 72 6c 5d 5b 6b 65 79 5d 20 3d 3d 20 6e 65 [url][key] == ne
1190: 77 5f 68 65 61 64 65 72 73 5b 6b 65 79 5d 3a 0a w_headers[key]:.
11a0: 09 09 09 09 09 09 09 70 72 69 6e 74 28 27 48 65 .......print('He
11b0: 61 64 65 72 20 22 27 2c 20 6b 65 79 2c 20 27 22 ader "', key, '"
11c0: 20 63 68 61 6e 67 65 64 20 66 72 6f 6d 20 5b 27 changed from ['
11d0: 2c 20 69 6e 64 65 78 5b 75 72 6c 5d 5b 6b 65 79 , index[url][key
11e0: 5d 2c 20 27 5d 20 74 6f 20 5b 27 2c 20 6e 65 77 ], '] to [', new
11f0: 5f 68 65 61 64 65 72 73 5b 6b 65 79 5d 2c 20 27 _headers[key], '
1200: 5d 27 2c 20 73 65 70 3d 27 27 29 0a 09 09 09 09 ]', sep='').....
1210: 09 09 09 72 65 6c 6f 61 64 20 3d 20 54 72 75 65 ...reload = True
1220: 0a 0a 09 09 09 09 23 20 64 6f 77 6e 6c 6f 61 64 ......# download
1230: 69 6e 67 20 66 69 6c 65 0a 09 09 09 09 69 66 20 ing file.....if
1240: 72 65 6c 6f 61 64 3a 0a 09 09 09 09 09 69 66 20 reload:......if
1250: 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68 27 'Content-Length'
1260: 20 69 6e 20 68 65 61 64 65 72 73 3a 0a 09 09 09 in headers:....
1270: 09 09 09 70 72 69 6e 74 28 27 44 6f 77 6e 6c 6f ...print('Downlo
1280: 61 64 69 6e 67 27 2c 20 68 65 61 64 65 72 73 5b ading', headers[
1290: 27 43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68 27 'Content-Length'
12a0: 5d 2c 20 27 62 79 74 65 73 20 5b 27 2c 20 65 6e ], 'bytes [', en
12b0: 64 3d 27 27 29 0a 09 09 09 09 09 65 6c 73 65 3a d='')......else:
12c0: 0a 09 09 09 09 09 09 70 72 69 6e 74 28 27 44 6f .......print('Do
12d0: 77 6e 6c 6f 61 64 69 6e 67 20 5b 27 2c 20 65 6e wnloading [', en
12e0: 64 3d 27 27 29 0a 09 09 09 09 09 73 79 73 2e 73 d='')......sys.s
12f0: 74 64 6f 75 74 2e 66 6c 75 73 68 28 29 0a 0a 09 tdout.flush()...
1300: 09 09 09 09 23 20 66 69 6c 65 20 69 73 20 63 72 ....# file is cr
1310: 65 61 74 65 64 20 61 74 20 74 65 6d 70 6f 72 61 eated at tempora
1320: 72 79 20 6c 6f 63 61 74 69 6f 6e 20 61 6e 64 20 ry location and
1330: 6d 6f 76 65 64 20 69 6e 20 70 6c 61 63 65 20 6f moved in place o
1340: 6e 6c 79 20 77 68 65 6e 20 64 6f 77 6e 6c 6f 61 nly when downloa
1350: 64 20 63 6f 6d 70 6c 65 74 65 73 0a 09 09 09 09 d completes.....
1360: 09 74 65 6d 70 5f 66 69 6c 65 20 3d 20 6f 70 65 .temp_file = ope
1370: 6e 28 6f 70 74 69 6f 6e 73 2e 64 69 72 20 2b 20 n(options.dir +
1380: 27 2f 2e 74 6d 70 27 2c 20 27 77 62 27 29 0a 09 '/.tmp', 'wb')..
1390: 09 09 09 09 62 75 66 66 65 72 20 3d 20 73 6f 75 ....buffer = sou
13a0: 72 63 65 2e 72 65 61 64 28 62 6c 6f 63 6b 5f 73 rce.read(block_s
13b0: 69 7a 65 29 0a 09 09 09 09 09 62 6c 6f 63 6b 73 ize)......blocks
13c0: 20 3d 20 30 0a 09 09 09 09 09 6d 65 67 73 20 3d = 0......megs =
13d0: 20 30 0a 09 09 09 09 09 77 68 69 6c 65 20 6c 65 0......while le
13e0: 6e 28 62 75 66 66 65 72 29 20 3e 20 30 3a 0a 09 n(buffer) > 0:..
13f0: 09 09 09 09 09 74 65 6d 70 5f 66 69 6c 65 2e 77 .....temp_file.w
1400: 72 69 74 65 28 62 75 66 66 65 72 29 0a 09 09 09 rite(buffer)....
1410: 09 09 09 70 72 69 6e 74 28 27 2e 27 2c 20 65 6e ...print('.', en
1420: 64 3d 27 27 29 0a 09 09 09 09 09 09 73 79 73 2e d='').......sys.
1430: 73 74 64 6f 75 74 2e 66 6c 75 73 68 28 29 0a 09 stdout.flush()..
1440: 09 09 09 09 09 62 75 66 66 65 72 20 3d 20 73 6f .....buffer = so
1450: 75 72 63 65 2e 72 65 61 64 28 62 6c 6f 63 6b 5f urce.read(block_
1460: 73 69 7a 65 29 0a 09 09 09 09 09 09 62 6c 6f 63 size).......bloc
1470: 6b 73 20 2b 3d 20 31 0a 09 09 09 09 09 09 69 66 ks += 1.......if
1480: 20 62 6c 6f 63 6b 73 20 3e 20 31 30 32 34 2a 31 blocks > 1024*1
1490: 30 32 34 2f 62 6c 6f 63 6b 5f 73 69 7a 65 3a 0a 024/block_size:.
14a0: 09 09 09 09 09 09 09 62 6c 6f 63 6b 73 20 3d 20 .......blocks =
14b0: 62 6c 6f 63 6b 73 20 2d 20 31 30 32 34 2a 31 30 blocks - 1024*10
14c0: 32 34 2f 62 6c 6f 63 6b 5f 73 69 7a 65 0a 09 09 24/block_size...
14d0: 09 09 09 09 09 6d 65 67 73 20 2b 3d 20 31 0a 09 .....megs += 1..
14e0: 09 09 09 09 09 09 70 72 69 6e 74 28 27 7b 7d 4d ......print('{}M
14f0: 62 27 2e 66 6f 72 6d 61 74 28 6d 65 67 73 29 2c b'.format(megs),
1500: 20 65 6e 64 3d 27 27 29 0a 09 09 09 09 09 74 65 end='')......te
1510: 6d 70 5f 66 69 6c 65 2e 63 6c 6f 73 65 28 29 0a mp_file.close().
1520: 09 09 09 09 09 70 72 69 6e 74 28 27 5d 27 29 0a .....print(']').
1530: 09 09 09 09 09 6f 73 2e 72 65 6e 61 6d 65 73 28 .....os.renames(
1540: 6f 70 74 69 6f 6e 73 2e 64 69 72 20 2b 20 27 2f options.dir + '/
1550: 2e 74 6d 70 27 2c 20 66 69 6c 65 5f 6e 61 6d 65 .tmp', file_name
1560: 29 0a 0a 09 09 09 09 63 68 65 63 6b 65 64 5f 66 )......checked_f
1570: 69 6c 65 73 20 2b 3d 20 31 0a 0a 09 09 09 09 23 iles += 1......#
1580: 20 73 74 6f 72 69 6e 67 20 6e 65 77 20 74 69 6d storing new tim
1590: 65 20 6d 61 72 6b 20 61 6e 64 20 73 74 6f 72 69 e mark and stori
15a0: 6e 67 20 6e 65 77 20 68 65 61 64 65 72 73 0a 09 ng new headers..
15b0: 09 09 09 6e 65 77 5f 68 65 61 64 65 72 73 5b 27 ...new_headers['
15c0: 5f 5f 74 69 6d 65 5f 5f 27 5d 20 3d 20 64 61 74 __time__'] = dat
15d0: 65 74 69 6d 65 2e 64 61 74 65 74 69 6d 65 2e 6e etime.datetime.n
15e0: 6f 77 28 29 0a 09 09 09 09 69 6e 64 65 78 5b 75 ow().....index[u
15f0: 72 6c 5d 20 3d 20 6e 65 77 5f 68 65 61 64 65 72 rl] = new_header
1600: 73 0a 09 09 09 09 69 6e 64 65 78 2e 73 79 6e 63 s.....index.sync
1610: 28 29 0a 0a 09 09 65 78 63 65 70 74 20 75 72 6c ()....except url
1620: 6c 69 62 2e 65 72 72 6f 72 2e 48 54 54 50 45 72 lib.error.HTTPEr
1630: 72 6f 72 20 61 73 20 65 72 72 6f 72 3a 0a 09 09 ror as error:...
1640: 09 23 20 69 6e 20 63 61 73 65 20 6f 66 20 65 72 .# in case of er
1650: 72 6f 72 20 77 65 20 64 6f 6e 27 74 20 6e 65 65 ror we don't nee
1660: 64 20 74 6f 20 64 6f 20 61 6e 79 74 68 69 6e 67 d to do anything
1670: 20 61 63 74 75 61 6c 6c 79 2c 0a 09 09 09 23 20 actually,....#
1680: 69 66 20 66 69 6c 65 20 64 6f 77 6e 6c 6f 61 64 if file download
1690: 20 73 74 61 6c 6c 73 20 6f 72 20 66 61 69 6c 73 stalls or fails
16a0: 20 74 68 65 20 66 69 6c 65 20 77 6f 75 6c 64 20 the file would
16b0: 6e 6f 74 20 62 65 20 6d 6f 76 65 64 20 74 6f 20 not be moved to
16c0: 69 74 27 73 20 6c 6f 63 61 74 69 6f 6e 0a 09 09 it's location...
16d0: 09 70 72 69 6e 74 28 65 72 72 6f 72 29 0a 0a 09 .print(error)...
16e0: 70 72 69 6e 74 28 27 5b 27 2c 20 6c 65 6e 28 75 print('[', len(u
16f0: 6e 63 68 65 63 6b 65 64 5f 66 69 6c 65 73 29 2c nchecked_files),
1700: 20 27 2f 27 2c 20 63 68 65 63 6b 65 64 5f 66 69 '/', checked_fi
1710: 6c 65 73 2c 20 27 5d 27 29 0a 0a 09 23 20 63 68 les, ']')...# ch
1720: 65 63 6b 69 6e 67 20 69 66 20 74 68 65 72 65 20 ecking if there
1730: 77 65 72 65 20 61 6e 79 20 66 69 6c 65 73 20 64 were any files d
1740: 6f 77 6e 6c 6f 61 64 65 64 2c 20 69 66 20 79 65 ownloaded, if ye
1750: 73 20 2d 20 72 65 73 74 61 72 74 69 6e 67 20 73 s - restarting s
1760: 65 71 75 65 6e 63 65 0a 09 69 66 20 63 68 65 63 equence..if chec
1770: 6b 65 64 5f 66 69 6c 65 73 20 3d 3d 20 30 3a 0a ked_files == 0:.
1780: 09 09 62 72 65 61 6b 0a ..break.