Add in header fields for per-object encryption/authentication.

[bluesky.git] / cleaner / cleaner
diff --git a/cleaner/cleaner b/cleaner/cleaner

index 4267b6e..1e564e8 100755 (executable)
--- a/cleaner/cleaner
+++ b/cleaner/cleaner
@@ -13,7 +13,8 @@ import boto
  from boto.s3.key import Key
  
  # The BlueSky 'struct cloudlog_header' data type.
-HEADER_FORMAT = '<4sb16sQIII'
+HEADER_FORMAT = '<4s48sb16sQIII'
+HEADER_CRYPTBYTES = 48
  HEADER_MAGIC = 'AgI-'
  HEADER_SIZE = struct.calcsize(HEADER_FORMAT)
  
@@ -63,10 +64,12 @@ class FileBackend:
  class S3Backend:
      """An interface to BlueSky where the log segments are on in Amazon S3."""
  
-    def __init__(self, bucket, path='', cachedir=None):
+    def __init__(self, bucket, path='', cachedir="."):
          self.conn = boto.connect_s3(is_secure=False)
          self.bucket = self.conn.get_bucket(bucket)
          self.path = path
+        self.cachedir = cachedir
+        self.cache = {}
  
      def list(self):
          files = []
@@ -75,19 +78,32 @@ class S3Backend:
          return files
  
      def read(self, filename):
-        k = Key(self.bucket)
-        k.key = self.path + filename
-        return k.get_contents_as_string()
+        if filename in self.cache:
+            fp = open(os.path.join(self.cachedir, filename), 'rb')
+            return fp.read()
+        else:
+            k = Key(self.bucket)
+            k.key = self.path + filename
+            data = k.get_contents_as_string()
+            fp = open(os.path.join(self.cachedir, filename), 'wb')
+            fp.write(data)
+            fp.close()
+            self.cache[filename] = True
+            return data
  
      def write(self, filename, data):
          k = Key(self.bucket)
          k.key = self.path + filename
          k.set_contents_from_string(data)
+        if filename in self.cache:
+            del self.cache[filename]
  
      def delete(self, filename):
          k = Key(self.bucket)
          k.key = self.path + filename
          k.delete()
+        if filename in self.cache:
+            del self.cache[filename]
  
      def loc_to_name(self, location):
          return "log-%08d-%08d" % (location)
@@ -99,6 +115,9 @@ class S3Backend:
  class LogItem:
      """In-memory representation of a single item stored in a log file."""
  
+    def __init__(self):
+        self.cryptkeys = '\0' * HEADER_CRYPTBYTES
+
      def __str__(self):
          return "<Item ty=%s location=%s size=%d id=%s...>" % (self.type, self.location, self.size, base64.b16encode(self.id).lower()[0:8])
  
@@ -117,7 +136,8 @@ class LogItem:
          link_locs = ''.join(link_locs)
  
          header = struct.pack(HEADER_FORMAT,
-                             HEADER_MAGIC, ord(self.type), self.id, self.inum,
+                             HEADER_MAGIC, self.cryptkeys,
+                             ord(self.type), self.id, self.inum,
                               len(self.data), len(link_ids), len(link_locs))
          return header + self.data + link_ids + link_locs
  
@@ -196,28 +216,29 @@ class UtilizationTracker:
  def parse_item(data):
      if len(data) < HEADER_SIZE: return
      header = struct.unpack_from(HEADER_FORMAT, data, 0)
-    size = HEADER_SIZE + sum(header[4:7])
+    size = HEADER_SIZE + sum(header[5:8])
  
      if header[0] != HEADER_MAGIC:
          print "Bad header magic!"
          return
  
      if len(data) != size:
-        print "Item size does not match!"
+        print "Item size does not match: %d != %d" % (size, len(data))
          return
  
      item = LogItem()
-    item.id = header[2]
-    item.inum = header[3]
+    item.cryptkeys = header[1]
+    item.id = header[3]
+    item.inum = header[4]
      item.location = None
-    item.type = chr(header[1])
+    item.type = chr(header[2])
      item.size = size
-    item.data = data[HEADER_SIZE : HEADER_SIZE + header[4]]
+    item.data = data[HEADER_SIZE : HEADER_SIZE + header[5]]
      links = []
-    link_ids = data[HEADER_SIZE + header[4]
-                    : HEADER_SIZE + header[4] + header[5]]
-    link_locs = data[HEADER_SIZE + header[4] + header[5]
-                     : HEADER_SIZE + sum(header[4:7])]
+    link_ids = data[HEADER_SIZE + header[5]
+                    : HEADER_SIZE + header[5] + header[6]]
+    link_locs = data[HEADER_SIZE + header[5] + header[6]
+                     : HEADER_SIZE + sum(header[5:8])]
      for i in range(len(link_ids) // 16):
          id = link_ids[16*i : 16*i + 16]
          if id == '\0' * 16:
@@ -253,7 +274,7 @@ def parse_log(data, location=None):
      offset = 0
      while len(data) - offset >= HEADER_SIZE:
          header = struct.unpack_from(HEADER_FORMAT, data, offset)
-        size = HEADER_SIZE + sum(header[4:7])
+        size = HEADER_SIZE + sum(header[5:8])
          if header[0] != HEADER_MAGIC:
              print "Bad header magic!"
              break