Miscellaneous changes.
[cumulus.git] / store.h
diff --git a/store.h b/store.h
index 3725a9f..6906d63 100644 (file)
--- a/store.h
+++ b/store.h
@@ -2,19 +2,27 @@
  * Copyright (C) 2006  Michael Vrable
  *
  * Backup data is stored in a collection of objects, which are grouped together
- * into segments for storage purposes.  This file provides interfaces for
- * reading and writing objects and segments. */
+ * into segments for storage purposes.  This implementation of the object store
+ * is built on top of libtar, and represents segments as TAR files and objects
+ * as files within them. */
 
-#ifndef _LBS_STORE_H
-#define _LBS_STORE_H
+#ifndef _LBS_TARSTORE_H
+#define _LBS_TARSTORE_H
 
 #include <stdint.h>
+#include <libtar.h>
 
-#include <exception>
+#include <list>
 #include <map>
+#include <set>
 #include <string>
+#include <iostream>
 #include <sstream>
 
+#include "sha1.h"
+
+class LbsObject;
+
 /* In memory datatype to represent key/value pairs of information, such as file
  * metadata.  Currently implemented as map<string, string>. */
 typedef std::map<std::string, std::string> dictionary;
@@ -32,75 +40,113 @@ public:
     std::string getError() const { return error; }
 };
 
-/* OutputStream is an abstract interface for writing data without seeking.
- * Output could be to a file, to an object within a segment, or even to a
- * memory buffer to help serialize data. */
-class OutputStream {
+/* A simple wrapper around a single TAR file to represent a segment.  Objects
+ * may only be written out all at once, since the tar header must be written
+ * first; incremental writing is not supported. */
+class Tarfile {
 public:
-    OutputStream();
-    virtual ~OutputStream() { }
-
-    // Write the given data buffer
-    void write(const void *data, size_t len);
-
-    // Return the total number of bytes written so far
-    int64_t get_pos() const { return bytes_written; }
-
-    // Convenience functions for writing other data types.  Values are always
-    // written out in little-endian order.
-    void write_u8(uint8_t val);
-    void write_u16(uint16_t val);
-    void write_u32(uint32_t val);
-    void write_u64(uint64_t val);
-
-    void write_s32(int32_t val) { write_u32((uint32_t)val); }
-    void write_s64(int64_t val) { write_u64((uint64_t)val); }
+    Tarfile(const std::string &path, const std::string &segment);
+    ~Tarfile();
 
-    void write_varint(uint64_t val);
+    void write_object(int id, const char *data, size_t len);
 
-    void write_string(const std::string &s);
-    void write_dictionary(const dictionary &d);
+    // Return an estimate of the size of the file.
+    size_t size_estimate() { return size; }
 
-protected:
-    // Function which actually causes a write: must be overridden by
-    // implementation.
-    virtual void write_internal(const void *data, size_t len) = 0;
+    void internal_write_object(const std::string &path,
+                               const char *data, size_t len);
 
 private:
-    int64_t bytes_written;
+    size_t size;
+    std::string segment_name;
+    std::ostringstream checksums;
+    TAR *t;
 };
 
-/* An OutputStream implementation which writes data to memory and returns the
- * result as a string. */
-class StringOutputStream : public OutputStream {
+class TarSegmentStore {
 public:
-    StringOutputStream();
-    std::string contents() const { return buf.str(); }
+    // New segments will be stored in the given directory.
+    TarSegmentStore(const std::string &path) { this->path = path; }
+    ~TarSegmentStore() { sync(); }
 
-protected:
-    virtual void write_internal(const void *data, size_t len);
+    // Writes an object to segment in the store, and returns the name
+    // (segment/object) to refer to it.  The optional parameter group can be
+    // used to control object placement; objects with different group
+    // parameters are kept in separate segments.
+    std::string write_object(const char *data, size_t len,
+                             const std::string &group = "",
+                             const std::list<std::string> &refs = norefs);
+
+    // Ensure all segments have been fully written.
+    void sync();
 
 private:
-    std::stringstream buf;
+    struct segment_info {
+        Tarfile *file;
+        std::string name;           // UUID
+        std::set<std::string> refs; // Other segments this one refers to
+        int count;                  // Objects written to this segment
+    };
+
+    std::string path;
+    std::map<std::string, struct segment_info *> segments;
+
+    // An empty list which can be used as an argument to write_object to
+    // indicate that this object depends on no others.
+    static std::list<std::string> norefs;
+
+    // Ensure that all segments in the given group have been fully written.
+    void close_segment(const std::string &group);
+
+    // Parse an object reference string and return just the segment name
+    // portion.
+    std::string object_reference_to_segment(const std::string &object);
 };
 
-/* An OutputStream implementation which writes data via the C stdio layer. */
-class FileOutputStream : public OutputStream {
+/* An in-memory representation of an object, which can be incrementally built
+ * before it is written out to a segment. */
+class LbsObject {
 public:
-    explicit FileOutputStream(FILE *file);
-    virtual ~FileOutputStream();
-
-protected:
-    virtual void write_internal(const void *data, size_t len);
+    LbsObject();
+    ~LbsObject();
+
+    // If an object is placed in a group, it will be written out to segments
+    // only containing other objects in the same group.  A group name is simply
+    // a string.
+    //std::string get_group() const { return group; }
+    void set_group(const std::string &g) { group = g; }
+
+    // Data in an object must be written all at once, and cannot be generated
+    // incrementally.  Data can be an arbitrary block of binary data of any
+    // size.  The pointer to the data need only remain valid until write() is
+    // called.
+    //const char *get_data() const { return data; }
+    //size_t get_data_len() const { return data_len; }
+    void set_data(const char *d, size_t len) { data = d; data_len = len; }
+
+    // Write an object to a segment, thus making it permanent.  This function
+    // can be called at most once.
+    void write(TarSegmentStore *store);
+
+    // An object is assigned a permanent name once it has been written to a
+    // segment.  Until that time, its name cannot be determined.
+    std::string get_name() const { return name; }
+
+    // Logically, one object may reference other objects (such as a metadata
+    // listing referncing actual file data blocks).  Such references should be
+    // noted explicitly.  It may eventually be used to build up a tree of
+    // checksums for later verifying integrity.
+    void add_reference(const LbsObject *o);
 
 private:
-    FILE *f;
-};
+    std::string group;
+    const char *data;
+    size_t data_len;
 
-/* Simple wrappers that encode integers using a StringOutputStream and return
- * the encoded result. */
-std::string encode_u16(uint16_t val);
-std::string encode_u32(uint32_t val);
-std::string encode_u64(uint64_t val);
+    bool written;
+    std::string name;
+
+    std::set<std::string> refs;
+};
 
-#endif // _LBS_STORE_H
+#endif // _LBS_TARSTORE_H