Цитата:
и индекс тегов ВСЕГО форума.
Не надо забывать, что индекс - это пара "значение:значение". Просто хранить теги недостаточно, нужно хранить участников, у которых есть что-то связанное с этим тегом (форум). Если хранить только автора, то его можно не найти в сети, когда придется искать тег, если хранить всех участников темы, то объемы начинаются заметно увеличиваться.
Цитата:
не хочется создавать раз и навсегда заданную структуру тем в виде "Форум-подфорум-раздел-подраздел-тема"
А структура "список списков"? В любой теме может быть куча ссылок на другие темы. Я к тому, что смысл тот же самый, но вложенность просто не ограничена ничем, и нет названий форум, подфорум, подраздел и т.п.
Цитата:
...20 полей на 1000 тегов в каждом
Рассчеты по тегам я не понял. Что за поля?
Цитата:
читаете про устройство Kademlia?
В данный момент ничего. Там общий смысл в том, что у "слов" есть свой хэш. И пользователь хранит "слова", которые являются "ближайшими" к нему. То есть хранит не все теги, а только небольшую часть.
Поиск работает по DHT. Как торрент-клиент ищет конкретные торренты находя все более "близких" клиентов (хэш клиента максимально похож на хэш торрента), так и "слова" можно находить перебирая все более близких по хэшу участников.
Можно скачать и посмотреть eMule - как вживую это выглядит.