Na AI vyzrát objektovými databázemi

Vizualizace vector searche. Zdroj: Fireship, https://youtu.be/klTvEwg3oJ4?si=AgaxB-fXPRl_Mine

V minulém čísle Observeru jsme hovořili o přínosu Larryho Ellisona v oblasti relačních databází. Ve světě správy dat se však objevuje nový trend – a zapojuje se do něj dokonce i společnost Oracle. Řeč je o objektových databázích, které mají být lépe škálovatelné a efektivnější při práci s velkým množstvím dat. To je nesmírně užitečné pro machine learning a AI. Pojďme si nejprve ujasnit terminologii. V relačních databázích máme řádky a sloupce, které dohromady tvoří tabulku, a vícero tabulek může být propojeno přes primární a cizí klíče – to jsou základní znalosti. Hlavní je, že se jednou nastaveného schématu musí v tabulce držet. To však může být poněkud těžkopádné, pokud operujeme s real-time daty, která nemusejí odpovídat schématu, jež jsme si vytyčili na počátku.

Zde nás může zachránit právě objektová databáze, v níž je obecně snazší a flexibilnější zapisovat nové hodnoty než v tradiční relační databázi (SQL), a to díky tomu, že nevyžadují žádné předem definované schéma – je možné snadno přidat nová pole (ekvivalentní sloupci v tabulce) do dokumentu (ekvivalentní řádku) nebo vložit nový dokument s jinou strukturou, aniž se musí měnit schéma celé kolekce (analogické se samotnou tabulkou). Celková struktura zůstává flexibilní nově příchozím datům. To je značně nepraktické, pokud chceme v takto košatém systému vyhledat jeden konkrétní prvek, neboť nejsou žádná předem daná pravidla, jak daný prvek najít (když vím, že je prvek v dokumentu XY, jak zjistím, v jakém je poli, když jeden dokument má vícero polí?). Nevýhoda se však může snadno a rychle stát výhodou, pokud zapojíme do vyhledávání umělou inteligenci, a konkrétně tedy vector search – ale o tom až někdy jindy. (pokračování na další straně)

Zatím je možné říci, že například již zmiňovaný MongoDB se nyní může pochlubit překvapivě moderním uživatelským rozhraním a širokou škálou funkcí. Umísťuje se tak v Gartner Magic Quadrantu vcelku vysoko, drží pozici „leaders“, třebaže nad ním je např. Microsoft nebo právě zmiňovaný Oracle. Právě u Microsoftu je opět patrná jeho dominance na trhu, kdy díky neskutečnému zápřahu ve všech oblastech může vytvářet řešení all-in-one. Jestliže jsou objektové databáze ideální pro práci s real-time daty, pak Microsoft, který umožňuje pod jednou střechou propojit jak pracovní nástroje (součástí M365), tak analytické nástroje (jako Power BI) a do toho vlastní ekosystém databází (Azure), je vidět, že má jasnou výhodu v implementování ML řešení. A to ještě nepadla zmínka o vysokých investicích do OpenAI a integraci aplikací s Co-pilotem…

08.27.2024