Squid url redirector

Hex Artifact Content
anonymous

Hex Artifact Content

Artifact 5ad2e51f1fd81774e522a6d58b17197633f3b7fed7321ff760e1e3912a08fe9b:


0000: 23 21 2f 75 73 72 2f 62 69 6e 2f 65 6e 76 20 70  #!/usr/bin/env p
0010: 79 74 68 6f 6e 33 2e 32 0a 0a 23 20 54 68 69 73  ython3.2..# This
0020: 20 73 63 72 69 70 74 20 63 6f 6e 76 65 72 74 73   script converts
0030: 20 53 71 75 69 64 47 75 61 72 64 20 64 61 74 61   SquidGuard data
0040: 62 61 73 65 20 69 6e 74 6f 20 66 6f 72 6d 61 74  base into format
0050: 20 74 68 61 74 20 63 61 6e 20 62 65 20 69 6d 70   that can be imp
0060: 6f 72 74 65 64 20 74 6f 0a 23 20 73 71 75 69 64  orted to.# squid
0070: 2d 74 61 67 67 65 72 2e 20 49 74 20 73 68 6f 75  -tagger. It shou
0080: 6c 64 20 62 65 20 72 75 6e 20 69 6e 20 53 71 75  ld be run in Squ
0090: 69 64 47 75 61 72 64 20 64 61 74 61 62 61 73 65  idGuard database
00a0: 20 64 69 72 65 63 74 6f 72 79 20 61 6e 64 20 69   directory and i
00b0: 74 20 77 6f 75 6c 64 0a 23 20 70 72 6f 64 75 63  t would.# produc
00c0: 65 20 63 73 76 20 73 74 72 65 61 6d 20 74 68 61  e csv stream tha
00d0: 74 20 63 61 6e 20 62 65 20 72 65 64 69 72 65 63  t can be redirec
00e0: 74 65 64 20 74 6f 20 73 71 75 69 64 2d 74 61 67  ted to squid-tag
00f0: 67 65 72 20 66 6f 72 20 69 6d 70 6f 72 74 73 3a  ger for imports:
0100: 0a 0a 23 20 63 64 20 2f 76 61 72 2f 64 62 2f 73  ..# cd /var/db/s
0110: 71 75 69 64 47 75 61 72 64 20 3b 20 70 61 74 68  quidGuard ; path
0120: 2f 74 6f 2f 73 67 5f 69 6d 70 6f 72 74 2e 70 79  /to/sg_import.py
0130: 20 7c 20 70 61 74 68 2f 74 6f 2f 73 71 75 69 64   | path/to/squid
0140: 2d 74 61 67 67 65 72 2e 70 79 20 2d 6c 20 2d 66  -tagger.py -l -f
0150: 0a 0a 23 20 54 68 69 73 20 6f 6e 65 20 77 69 6c  ..# This one wil
0160: 6c 20 66 6c 75 73 68 20 73 71 75 69 64 2d 74 61  l flush squid-ta
0170: 67 67 65 72 27 73 20 64 61 74 61 62 61 73 65 20  gger's database 
0180: 61 6e 64 20 6c 6f 61 64 20 73 65 6c 65 63 74 65  and load selecte
0190: 64 20 53 71 75 69 64 47 75 61 72 64 0a 23 20 64  d SquidGuard.# d
01a0: 61 74 61 62 61 73 65 2e 0a 0a 69 6d 70 6f 72 74  atabase...import
01b0: 20 63 6f 64 65 63 73 2c 20 63 73 76 2c 20 6f 73   codecs, csv, os
01c0: 2c 20 72 65 2c 20 73 79 73 0a 0a 64 61 74 61 20  , re, sys..data 
01d0: 3d 20 7b 7d 0a 0a 66 6f 72 20 28 70 61 74 68 2c  = {}..for (path,
01e0: 20 6e 61 6d 65 73 2c 20 66 69 6c 65 73 29 20 69   names, files) i
01f0: 6e 20 6f 73 2e 77 61 6c 6b 28 27 2e 27 29 3a 0a  n os.walk('.'):.
0200: 09 74 61 67 20 3d 20 70 61 74 68 2e 6c 73 74 72  .tag = path.lstr
0210: 69 70 28 27 2e 2f 27 29 0a 09 66 6f 72 20 66 69  ip('./')..for fi
0220: 6c 65 20 69 6e 20 66 69 6c 65 73 3a 0a 09 09 69  le in files:...i
0230: 66 20 66 69 6c 65 20 69 6e 20 28 27 64 6f 6d 61  f file in ('doma
0240: 69 6e 73 27 2c 20 27 65 78 70 72 65 73 73 69 6f  ins', 'expressio
0250: 6e 73 27 2c 20 27 75 72 6c 73 27 29 3a 0a 09 09  ns', 'urls'):...
0260: 09 77 69 74 68 20 63 6f 64 65 63 73 2e 6f 70 65  .with codecs.ope
0270: 6e 28 70 61 74 68 20 2b 20 6f 73 2e 73 65 70 20  n(path + os.sep 
0280: 2b 20 66 69 6c 65 2c 20 27 72 27 2c 20 27 4c 31  + file, 'r', 'L1
0290: 27 29 20 61 73 20 73 6f 75 72 63 65 3a 0a 09 09  ') as source:...
02a0: 09 09 66 6f 72 20 66 75 6c 6c 5f 6c 69 6e 65 20  ..for full_line 
02b0: 69 6e 20 73 6f 75 72 63 65 3a 0a 09 09 09 09 09  in source:......
02c0: 6c 69 6e 65 20 3d 20 66 75 6c 6c 5f 6c 69 6e 65  line = full_line
02d0: 2e 73 74 72 69 70 28 29 0a 09 09 09 09 09 69 66  .strip()......if
02e0: 20 6e 6f 74 20 72 65 2e 63 6f 6d 70 69 6c 65 28   not re.compile(
02f0: 27 5e 28 23 7c 24 29 27 29 2e 6d 61 74 63 68 28  '^(#|$)').match(
0300: 6c 69 6e 65 29 3a 0a 09 09 09 09 09 09 72 65 67  line):.......reg
0310: 65 78 70 20 3d 20 4e 6f 6e 65 0a 09 09 09 09 09  exp = None......
0320: 09 69 66 20 66 69 6c 65 20 3d 3d 20 27 65 78 70  .if file == 'exp
0330: 72 65 73 73 69 6f 6e 73 27 3a 0a 09 09 09 09 09  ressions':......
0340: 09 09 72 65 67 65 78 70 20 3d 20 6c 69 6e 65 0a  ..regexp = line.
0350: 09 09 09 09 09 09 09 6c 69 6e 65 20 3d 20 4e 6f  .......line = No
0360: 6e 65 0a 09 09 09 09 09 09 69 66 20 66 69 6c 65  ne.......if file
0370: 20 3d 3d 20 27 75 72 6c 73 27 3a 0a 09 09 09 09   == 'urls':.....
0380: 09 09 09 28 6c 69 6e 65 2c 20 73 65 70 2c 20 72  ...(line, sep, r
0390: 65 67 65 78 70 29 20 3d 20 6c 69 6e 65 2e 70 61  egexp) = line.pa
03a0: 72 74 69 74 69 6f 6e 28 27 2f 27 29 0a 09 09 09  rtition('/')....
03b0: 09 09 09 09 72 65 67 65 78 70 20 3d 20 27 5e 27  ....regexp = '^'
03c0: 20 2b 20 72 65 2e 65 73 63 61 70 65 28 72 65 67   + re.escape(reg
03d0: 65 78 70 29 0a 09 09 09 09 09 09 69 66 20 6c 69  exp).......if li
03e0: 6e 65 20 69 6e 20 64 61 74 61 3a 0a 09 09 09 09  ne in data:.....
03f0: 09 09 09 69 66 20 72 65 67 65 78 70 20 69 6e 20  ...if regexp in 
0400: 64 61 74 61 5b 6c 69 6e 65 5d 3a 0a 09 09 09 09  data[line]:.....
0410: 09 09 09 09 64 61 74 61 5b 6c 69 6e 65 5d 5b 72  ....data[line][r
0420: 65 67 65 78 70 5d 2e 61 64 64 28 74 61 67 29 0a  egexp].add(tag).
0430: 09 09 09 09 09 09 09 65 6c 73 65 3a 0a 09 09 09  .......else:....
0440: 09 09 09 09 09 64 61 74 61 5b 6c 69 6e 65 5d 5b  .....data[line][
0450: 72 65 67 65 78 70 5d 20 3d 20 73 65 74 28 5b 74  regexp] = set([t
0460: 61 67 5d 29 0a 09 09 09 09 09 09 65 6c 73 65 3a  ag]).......else:
0470: 0a 09 09 09 09 09 09 09 64 61 74 61 5b 6c 69 6e  ........data[lin
0480: 65 5d 20 3d 20 7b 72 65 67 65 78 70 3a 20 73 65  e] = {regexp: se
0490: 74 28 5b 74 61 67 5d 29 7d 0a 0a 63 77 20 3d 20  t([tag])}..cw = 
04a0: 63 73 76 2e 77 72 69 74 65 72 28 73 79 73 2e 73  csv.writer(sys.s
04b0: 74 64 6f 75 74 29 0a 63 77 2e 77 72 69 74 65 72  tdout).cw.writer
04c0: 6f 77 28 5b 27 73 69 74 65 27 2c 20 27 74 61 67  ow(['site', 'tag
04d0: 27 2c 20 27 72 65 67 65 78 70 27 5d 29 0a 0a 66  ', 'regexp'])..f
04e0: 6f 72 20 64 6f 6d 61 69 6e 20 69 6e 20 64 61 74  or domain in dat
04f0: 61 3a 0a 09 66 6f 72 20 72 65 67 65 78 70 20 69  a:..for regexp i
0500: 6e 20 64 61 74 61 5b 64 6f 6d 61 69 6e 5d 3a 0a  n data[domain]:.
0510: 09 09 63 77 2e 77 72 69 74 65 72 6f 77 28 5b 64  ..cw.writerow([d
0520: 6f 6d 61 69 6e 2c 20 27 7b 27 20 2b 20 27 2c 27  omain, '{' + ','
0530: 2e 6a 6f 69 6e 28 64 61 74 61 5b 64 6f 6d 61 69  .join(data[domai
0540: 6e 5d 5b 72 65 67 65 78 70 5d 29 20 2b 20 27 7d  n][regexp]) + '}
0550: 27 2c 20 72 65 67 65 78 70 5d 29 0a              ', regexp]).