Implement multi-threaded request processing and locking for NFS.
[bluesky.git] / bluesky / inode.c
index e4902cd..9b6160a 100644 (file)
@@ -6,11 +6,13 @@
  * TODO: Licensing
  */
 
+#include <stdio.h>
 #include <stdint.h>
+#include <inttypes.h>
 #include <glib.h>
 #include <string.h>
 
-#include "bluesky.h"
+#include "bluesky-private.h"
 
 /* Core filesystem.  Different proxies, such as the NFSv3 one, interface to
  * this, but the core actually tracks the data which is stored.  So far we just
@@ -27,7 +29,8 @@ int64_t bluesky_get_current_time()
 
 /* Update an inode to indicate that a modification was made.  This increases
  * the change counter, updates the ctime to the current time, and optionally
- * updates the mtime. */
+ * updates the mtime.  This also makes the inode contents subject to writeback
+ * to storage in the future.  inode must already be locked. */
 void bluesky_inode_update_ctime(BlueSkyInode *inode, gboolean update_mtime)
 {
     int64_t now = bluesky_get_current_time();
@@ -35,54 +38,12 @@ void bluesky_inode_update_ctime(BlueSkyInode *inode, gboolean update_mtime)
     inode->ctime = now;
     if (update_mtime)
         inode->mtime = now;
-}
-
-/* Compute the HMAC keyed-hash function using the given hash algorithm, data,
- * and key. */
-void compute_hmac(GChecksumType algo,
-                  const guchar *data, gsize data_len,
-                  const guchar *key, gsize key_len,
-                  guint8 *buffer, gsize *digest_len)
-{
-    int block_size;
-
-    switch (algo) {
-    case G_CHECKSUM_MD5:
-    case G_CHECKSUM_SHA1:
-    case G_CHECKSUM_SHA256:
-        block_size = 64;
-        break;
-    default:
-        g_error("Unknown hash algorithm for HMAC: %d\n", algo);
-    }
-
-    gsize digest_size = g_checksum_type_get_length(algo);
-
-    guchar keybuf[block_size];
-    memset(keybuf, 0, block_size);
-    memcpy(keybuf, key, MIN(block_size, key_len));
-    for (int i = 0; i < block_size; i++)
-        keybuf[i] ^= 0x36;
-
-    GChecksum *csum1 = g_checksum_new(algo);
-    g_checksum_update(csum1, keybuf, block_size);
-    g_checksum_update(csum1, data, data_len);
-    guint8 digest[digest_size];
-    g_checksum_get_digest(csum1, digest, &digest_size);
 
-    memset(keybuf, 0, block_size);
-    memcpy(keybuf, key, MIN(block_size, key_len));
-    for (int i = 0; i < block_size; i++)
-        keybuf[i] ^= 0x5c;
+    if (inode->change_time == 0)
+        inode->change_time = now;
 
-    GChecksum *csum2 = g_checksum_new(algo);
-    g_checksum_update(csum2, keybuf, block_size);
-    g_checksum_update(csum2, digest, digest_size);
-
-    g_checksum_get_digest(csum2, buffer, digest_len);
-
-    g_checksum_free(csum1);
-    g_checksum_free(csum2);
+    if (bluesky_options.writethrough_cache)
+        bluesky_file_flush(inode, NULL);
 }
 
 /* Unfortunately a glib hash table is only guaranteed to be able to store
@@ -114,7 +75,37 @@ BlueSkyFS *bluesky_new_fs(gchar *name)
     fs->inodes = g_hash_table_new(bluesky_fs_key_hash_func,
                                   bluesky_fs_key_equal_func);
     fs->next_inum = BLUESKY_ROOT_INUM + 1;
-    fs->store = s3store_new();
+    fs->store = bluesky_store_new("file");
+
+    return fs;
+}
+
+BlueSkyFS *bluesky_init_fs(gchar *name, BlueSkyStore *store)
+{
+    BlueSkyRCStr *data = bluesky_store_get(store, "superblock");
+    if (data != NULL) {
+        BlueSkyFS *fs = bluesky_deserialize_superblock(data->data);
+        if (fs != NULL) {
+            fs->store = store;
+            g_print("Loaded filesystem superblock\n");
+            g_free(fs->name);
+            fs->name = g_strdup(name);
+            return fs;
+        }
+    }
+
+    g_print("Initializing fresh filesystem\n");
+    BlueSkyFS *fs = bluesky_new_fs(name);
+    fs->store = store;
+
+    BlueSkyInode *root = bluesky_new_inode(BLUESKY_ROOT_INUM, fs,
+                                           BLUESKY_DIRECTORY);
+    root->nlink = 1;
+    root->mode = 0755;
+    bluesky_insert_inode(fs, root);
+
+    bluesky_inode_flush(fs, root);
+    bluesky_superblock_flush(fs);
 
     return fs;
 }
@@ -128,21 +119,21 @@ void bluesky_inode_ref(BlueSkyInode *inode)
 void bluesky_inode_unref(BlueSkyInode *inode)
 {
     if (g_atomic_int_dec_and_test(&inode->refcount)) {
-        g_error("Reference count for inode %lld dropped to zero!\n",
+        g_error("Reference count for inode %"PRIu64" dropped to zero!\n",
                 inode->inum);
     }
 }
 
 /* Allocate a fresh inode number which has not been used before within a
- * filesystem. */
+ * filesystem.  fs must already be locked. */
 uint64_t bluesky_fs_alloc_inode(BlueSkyFS *fs)
 {
     uint64_t inum;
 
-    g_mutex_lock(fs->lock);
     inum = fs->next_inum;
     fs->next_inum++;
-    g_mutex_unlock(fs->lock);
+
+    bluesky_superblock_flush(fs);
 
     return inum;
 }
@@ -157,6 +148,7 @@ BlueSkyInode *bluesky_new_inode(uint64_t inum, BlueSkyFS *fs,
     i->type = type;
     i->fs = fs;
     i->inum = inum;
+    i->change_count = 1;
 
     switch (type) {
     case BLUESKY_REGULAR:
@@ -165,6 +157,7 @@ BlueSkyInode *bluesky_new_inode(uint64_t inum, BlueSkyFS *fs,
     case BLUESKY_DIRECTORY:
         i->dirents = g_sequence_new(bluesky_dirent_destroy);
         i->dirhash = g_hash_table_new(g_str_hash, g_str_equal);
+        i->dirhash_folded = g_hash_table_new(g_str_hash, g_str_equal);
         break;
     case BLUESKY_BLOCK:
     case BLUESKY_CHARACTER:
@@ -179,197 +172,110 @@ BlueSkyInode *bluesky_new_inode(uint64_t inum, BlueSkyFS *fs,
 
 /* Retrieve an inode from the filesystem.  Eventually this will be a cache and
  * so we might need to go fetch the inode from elsewhere; for now all
- * filesystem state is stored here. */
+ * filesystem state is stored here.  inode is returned with a reference held
+ * but not locked. */
 BlueSkyInode *bluesky_get_inode(BlueSkyFS *fs, uint64_t inum)
 {
     BlueSkyInode *inode = NULL;
 
+    if (inum == 0) {
+        return NULL;
+    }
+
     g_mutex_lock(fs->lock);
     inode = (BlueSkyInode *)g_hash_table_lookup(fs->inodes, &inum);
+
+    if (inode == NULL) {
+        bluesky_inode_fetch(fs, inum);
+        inode = (BlueSkyInode *)g_hash_table_lookup(fs->inodes, &inum);
+    }
+
+    if (inode != NULL) {
+        bluesky_inode_ref(inode);
+    }
+
     g_mutex_unlock(fs->lock);
 
     return inode;
 }
 
-/* Insert an inode into the filesystem inode cache. */
+/* Insert an inode into the filesystem inode cache.  fs should be locked. */
 void bluesky_insert_inode(BlueSkyFS *fs, BlueSkyInode *inode)
 {
-    g_mutex_lock(fs->lock);
     g_hash_table_insert(fs->inodes, &inode->inum, inode);
-    g_mutex_unlock(fs->lock);
 }
 
-/* Mark a given block dirty and make sure that data is faulted in so that it
- * can be written to. */
-void bluesky_block_touch(BlueSkyInode *inode, uint64_t i)
+/* Deprecated: Synchronize an inode to stable storage. */
+void bluesky_inode_flush(BlueSkyFS *fs, BlueSkyInode *inode)
 {
-    g_return_if_fail(i < inode->blocks->len);
-    BlueSkyBlock *block = &g_array_index(inode->blocks, BlueSkyBlock, i);
-
-    switch (block->type) {
-    case BLUESKY_BLOCK_ZERO:
-        block->data = bluesky_string_new(g_malloc0(BLUESKY_BLOCK_SIZE),
-                                         BLUESKY_BLOCK_SIZE);
-        break;
-    case BLUESKY_BLOCK_REF:
-        bluesky_block_fetch(inode->fs, block);
-        g_assert(block->type == BLUESKY_BLOCK_CACHED);
-        /* Fall through */
-    case BLUESKY_BLOCK_CACHED:
-    case BLUESKY_BLOCK_DIRTY:
-        block->data = bluesky_string_dup(block->data);
-        break;
-    }
-
-    block->type = BLUESKY_BLOCK_DIRTY;
+    GString *buf = g_string_new("");
+    bluesky_serialize_inode(buf, inode);
+    BlueSkyRCStr *data = bluesky_string_new_from_gstring(buf);
+
+    char key[64];
+    sprintf(key, "inode-%016"PRIx64, inode->inum);
+
+    BlueSkyStoreAsync *async = bluesky_store_async_new(fs->store);
+    async->op = STORE_OP_PUT;
+    async->key = g_strdup(key);
+    async->data = data;
+    bluesky_store_async_submit(async);
+    bluesky_store_async_unref(async);
 }
 
-/* Set the size of a file.  This will truncate or extend the file as needed.
- * Newly-allocated bytes are zeroed. */
-void bluesky_file_truncate(BlueSkyInode *inode, uint64_t size)
+/* Start writeback of an inode and all associated data. */
+void bluesky_inode_start_sync(BlueSkyInode *inode, BlueSkyStoreAsync *barrier)
 {
-    g_return_if_fail(size <= BLUESKY_MAX_FILE_SIZE);
-
-    if (size == inode->size)
-        return;
-
-    uint64_t blocks = (size + BLUESKY_BLOCK_SIZE - 1) / BLUESKY_BLOCK_SIZE;
-
-    if (blocks > inode->blocks->len) {
-        /* Need to add new blocks to the end of a file.  New block structures
-         * are automatically zeroed, which initializes them to be pointers to
-         * zero blocks so we don't need to do any more work. */
-        g_array_set_size(inode->blocks, blocks);
-    } else if (blocks < inode->blocks->len) {
-        /* Delete blocks from a file.  Must reclaim memory. */
-        for (guint i = inode->blocks->len; i < blocks; i++) {
-            BlueSkyBlock *b = &g_array_index(inode->blocks, BlueSkyBlock, i);
-            g_free(b->ref);
-            bluesky_string_unref(b->data);
-        }
-        g_array_set_size(inode->blocks, blocks);
-    }
-
-    /* If the file size is being decreased, ensure that any trailing data in
-     * the last block is zeroed. */
-    if (size < inode->size) {
-        BlueSkyBlock *b = &g_array_index(inode->blocks, BlueSkyBlock,
-                                         blocks - 1);
-        if (b->type != BLUESKY_BLOCK_ZERO) {
-            bluesky_block_touch(inode, blocks - 1);
-            int end_offset = size % BLUESKY_BLOCK_SIZE;
-            if (end_offset > 0) {
-                memset(&b->data->data[end_offset], 0,
-                       BLUESKY_BLOCK_SIZE - end_offset);
-            }
-        }
-    }
-
-    inode->size = size;
-    bluesky_inode_update_ctime(inode, 1);
+    BlueSkyFS *fs = inode->fs;
+
+    GString *buf = g_string_new("");
+    bluesky_serialize_inode(buf, inode);
+    BlueSkyRCStr *data = bluesky_string_new_from_gstring(buf);
+
+    if (inode->type == BLUESKY_REGULAR)
+        bluesky_file_flush(inode, barrier);
+
+    char key[64];
+    sprintf(key, "inode-%016"PRIx64, inode->inum);
+
+    BlueSkyStoreAsync *async = bluesky_store_async_new(fs->store);
+    async->op = STORE_OP_PUT;
+    async->key = g_strdup(key);
+    async->data = data;
+    bluesky_store_async_submit(async);
+    if (barrier != NULL)
+        bluesky_store_add_barrier(barrier, async);
+    bluesky_store_async_unref(async);
 }
 
-void bluesky_file_write(BlueSkyInode *inode, uint64_t offset,
-                        const char *data, gint len)
+/* Fetch an inode from stable storage. */
+void bluesky_inode_fetch(BlueSkyFS *fs, uint64_t inum)
 {
-    g_return_if_fail(inode->type == BLUESKY_REGULAR);
-    g_return_if_fail(offset < inode->size);
-    g_return_if_fail(len <= inode->size - offset);
-
-    if (len == 0)
+    char key[64];
+    sprintf(key, "inode-%016"PRIx64, inum);
+    BlueSkyRCStr *data = bluesky_store_get(fs->store, key);
+    if (data == NULL)
         return;
 
-    while (len > 0) {
-        uint64_t block_num = offset / BLUESKY_BLOCK_SIZE;
-        gint block_offset = offset % BLUESKY_BLOCK_SIZE;
-        gint bytes = MIN(BLUESKY_BLOCK_SIZE - block_offset, len);
-
-        bluesky_block_touch(inode, block_num);
-        BlueSkyBlock *b = &g_array_index(inode->blocks, BlueSkyBlock,
-                                         block_num);
-        memcpy(&b->data->data[block_offset], data, bytes);
-        bluesky_block_flush(inode->fs, b);
-
-        offset += bytes;
-        data += bytes;
-        len -= bytes;
-    }
-
-    bluesky_inode_update_ctime(inode, 1);
-}
-
-void bluesky_file_read(BlueSkyInode *inode, uint64_t offset,
-                       char *buf, gint len)
-{
-    g_return_if_fail(inode->type == BLUESKY_REGULAR);
-    g_return_if_fail(offset < inode->size);
-    g_return_if_fail(len <= inode->size - offset);
-
-    while (len > 0) {
-        uint64_t block_num = offset / BLUESKY_BLOCK_SIZE;
-        gint block_offset = offset % BLUESKY_BLOCK_SIZE;
-        gint bytes = MIN(BLUESKY_BLOCK_SIZE - block_offset, len);
-
-        BlueSkyBlock *b = &g_array_index(inode->blocks, BlueSkyBlock,
-                                         block_num);
-        switch (b->type) {
-        case BLUESKY_BLOCK_ZERO:
-            memset(buf, 0, bytes);
-            break;
-        case BLUESKY_BLOCK_REF:
-            bluesky_block_fetch(inode->fs, b);
-            /* Fall through */
-        case BLUESKY_BLOCK_CACHED:
-        case BLUESKY_BLOCK_DIRTY:
-            memcpy(buf, &b->data->data[block_offset], bytes);
-            break;
-        }
-
-        offset += bytes;
-        buf += bytes;
-        len -= bytes;
+    BlueSkyInode *inode = bluesky_deserialize_inode(fs, data->data);
+    if (inode != NULL) {
+        bluesky_insert_inode(fs, inode);
     }
 }
 
-/* Read the given block from cloud-backed storage if the data is not already
- * cached. */
-void bluesky_block_fetch(BlueSkyFS *fs, BlueSkyBlock *block)
+/* Synchronize filesystem superblock to stable storage. */
+void bluesky_superblock_flush(BlueSkyFS *fs)
 {
-    if (block->type != BLUESKY_BLOCK_REF)
-        return;
-
-    g_print("Fetching block from %s\n", block->ref);
-    BlueSkyRCStr *string = s3store_get(fs->store, block->ref);
-
-    bluesky_string_unref(block->data);
-    block->data = bluesky_crypt_decrypt(string, fs->encryption_key);
-    block->type = BLUESKY_BLOCK_CACHED;
-    bluesky_string_unref(string);
-}
-
-/* Write the given block to cloud-backed storage and mark it clean. */
-void bluesky_block_flush(BlueSkyFS *fs, BlueSkyBlock *block)
-{
-    if (block->type != BLUESKY_BLOCK_DIRTY)
-        return;
-
-    BlueSkyRCStr *data = block->data;
-    data = bluesky_crypt_encrypt(data, fs->encryption_key);
-
-    GChecksum *csum = g_checksum_new(G_CHECKSUM_SHA256);
-    g_checksum_update(csum, data->data, data->len);
-    gchar *name = g_strdup(g_checksum_get_string(csum));
-
-    g_print("Flushing block as %s\n", name);
-    s3store_put(fs->store, name, data);
-    g_free(block->ref);
-    block->ref = name;
-
-    /* block->type = BLUESKY_BLOCK_CACHED; */
-    bluesky_string_unref(block->data);
-    block->data = NULL;
-    block->type = BLUESKY_BLOCK_REF;
-
-    g_checksum_free(csum);
-    bluesky_string_unref(data);
+    GString *buf = g_string_new("");
+    bluesky_serialize_superblock(buf, fs);
+    BlueSkyRCStr *data = bluesky_string_new_from_gstring(buf);
+
+    BlueSkyStoreAsync *async = bluesky_store_async_new(fs->store);
+    async->op = STORE_OP_PUT;
+    async->key = g_strdup("superblock");
+    async->data = data;
+    bluesky_store_async_submit(async);
+    bluesky_store_async_unref(async);
+
+    bluesky_store_sync(fs->store);
 }