gf2:datenbanken:herausforderungen [DokuWiki CSC]

Dies ist eine alte Version des Dokuments!

Im Vergleich zu unserem Instahub mit den generierten 200 Nutzern ist Instagram mit momentan über 2 Milliarden Nutzern ( Siehe hier) verwaltet seine riesigen Datenmengen.

<h3 class=" page-header pb-3 mb-4 mt-5"></h3>

Viele heute grosse Tech-Unternehmen standen vor 10 bis 15 Jahren vor den folgenden zentralen Fragen, deren Beantwortung zur Entwicklung der nötigen Technologien für unsere heutigen (und vermutlich auch viele zukünftige) sozialen Netzwerke oder auch andere Anwendungen (Google, Amazon-Store, …) zentral sind.

Big Data - wenn unglaublich grosse Datensätze bzw. Datenbanken bearbeitet und analysiert werden sollen ...

Um diese unglaubliche Menge an Daten überhaupt verwalten und analysieren zu können, ist eine Kombination verschiedener Technologien und Architekturen nötig. Diese sind auf *Skalierbarkeit*, *Leistung* und *Zuverlässigkeit* ausgelegt.

Genauer bedeutet dies, dass es darum geht, dass die Datenbank auf verschiedene Server verteilt wird, dass bei steigender Anzahl an Nutzern eine Verfügbarkeit wichtig ist. Zudem sollte möglichst rasch und effizient, mit kleiner Fehlertoleranz eine Abfrage bearbeitet werden – oder Analyse von Daten möglich sein. Instagram muss aber konstant und korrekt zu funktionieren, ohne Ausfälle oder Fehler.

Dies ist bei dieser schieren Datenflut eine echte Herausforderung.
Im Folgenden werden einige der wichtigsten zentralen Fragestellungen und Probleme der Verarbeitung von sehr grossen Datenmengen thematisiert. Diese Probleme wurden oft gemeinsam von vielen heute grossen Tech-Unternehmen wie Amazon, Google oder auch einigen Universitäten, welche sich in diesem Gebiet spezialisierten, gelöst. Eine erste Antwort ist jeweils formuliert und zusätzliches Lesematerial bereitgestellt.

Wie kann eine so grosse Datenbank überhaupt gespeichert werden?

Die Datenbank muss auf verschiedene Server- bzw. Rechenzentren verteilt werden!

Herausforderungen für grosse Datenbanken

Big Data - wenn unglaublich grosse Datensätze bzw. Datenbanken bearbeitet und analysiert werden sollen ...

Wie kann eine so grosse Datenbank überhaupt gespeichert werden?