Metrized Small World Active Data Storage
Проект Metrized Small World Data Storage посвящен построению глобальной распределенной архитектуры хранения и поиска информации, действующей в контексте сети Интернет и содержащей петабайтные объемы данных, генерируемые большим количеством независимых пользователей, географически распределенных по всему миру. В конечном итоге создание такой архитектуры позволит каждому физическому объекту получить глобально доступное представление в цифровом мире. Это, в частности, даст возможность компаниям хранить данные о каждой отдельной единице продукции в едином распределенном хранилище, а также обмениваться этими данными с компаниями-партнерами.
Основой предлагаемой архитектуры является структура данных, обладающая свойствами «метризованного тесного мира» (Metrized Small World). В этой структуре элементы данных (например, описания объектов реального мира) динамически объединяются в логическую сеть, имеющую вид графа со свойствами тесного мира. Структуры, обладающие такими свойствами, позволяют иметь небольшое среднее количество связей для каждого узла, но в то же время обеспечивают малое количество переходов по связям между любыми двумя узлами. Это означает, что вне зависимости от того, какой элемент данных выбран в качестве отправной точки для процесса поиска, результат будет получен за малое количество шагов по сравнению с размером структуры. Чтобы определить правильное направление для процесса поиска и для обеспечения необходимой кластеризации похожих элементов данных, к графу тесного мира добавляется метрика (мера близости) между элементами данных и запросами, в результате чего получается структура со свойствами метризованного тесного мира. Более детально эта структура описана в наших публикациях.
Чтобы структура была масштабируемой в глобальном контексте, не только данные должны быть распределенными, но также и их обработка. Поэтому мы сделали элементы данных активными, способными общаться друг с другом и с клиентами системы посредством сетевых сообщений. Это позволяет перенести часть вычислительной и сетевой нагрузки, необходимой для поиска и добавления элементов данных, с источников запросов на само распределенное хранилище.
Для исследования и проверки нашей концепции мы создали прототип, состоящий из динамически дополняемого набора HTTP-серверов, обслуживающих активные элементы данных (Active Data Units, ADUs), состоящие из XML-содержимого и списка ссылок на другие элементы в формате XLink. Программные компоненты сервера позволяют активным элементам данных взаимодействовать друг с другом посредством XML-сообщений, передаваемых по протоколу HTTP.
Проект развивается по следующим направлениям:
- Улучшение алгоритмов поиска и добавления данных. Мы работаем над оптимизацией структуры графа тесного мира, расширением поддержки типов данных, повышением скорости и надежности алгоритмов поиска, и др.
- Дальнейшее развитие прототипа MSW Active Data Storage. Наша основная цель – увеличение производительности и реализация новых и улучшенных алгоритмов поиска и добавления данных.
- Создание средств визуализации структуры графа метризованного тесного мира в реальном времени. Эти средства позволят наблюдать развитие графа метризованного тесного мира по мере добавления новых элементов данных.
- Поиск возможностей применения технологии MSW Active Data Storage. Несмотря на то, что перспектива создания глобально доступного цифрового представления для каждого предмета реального мира может быть отдаленной, существующие приложения могут извлечь выгоду из глобальной доступности данных и масштабируемости, предоставляемой технологией MSW Active Data Storage. Одним из примеров является хранение и обмен информации о единицах продукции, которым присвоены коды EPC, размещенные в метках RFID.
