Владимир Климонтович поделился своим опытом обработки ОЧЕНЬ БОЛЬШИХ объемов данных, и использование для этого NOSQL-подходов, в частности Apache Hadoop.
История вопроса.
* Почему проблема обработки большего объема данных становится все более актуальной (пример роста количества данных в разных областях).
* Статья от компании Google про парадигму MapReduce. Краткое описание парадигмы.
* Краткое описание смежных областей (distributed file system, bigtable-like storage).
* История и краткое описание платформы Apache Hadoop.
Примеры использования.
* Использование платформы hadoop в трех отдельно взятых областях: в last.fm (построение charts), в online-advertising'e (построение статистики), в Yahoo (построение поискового индекса).
* Описание традиционного подхода (SQL базы данных) и подхода с использованием Hadoop для каждой из вышеобозначенных проблем. Достоинства и недостатки SQL/Hadoop подхода
* Общий принцип трансляции некоторого подтипа SQL запросов в MapReduce job'ы.
Платформы, построенные поверх Hadoop.
* Краткое описание ETL-framework'а Hive and Pig, построенных на базе Hadoop.
* Примеры использования (на примере facebook.com и Yahoo); сравнение со стандартным SQL подходом
Проблемы с real-time доступом к данным при использовании Apache Hadoop.
* Описания случаев, когда real-time нужен, а когда нет.
* Описание решения простых проблем с realtime: кэширование в памяти (memcached), симбиоз со SQL
* Симбиоз с bigtable-like БД на примере HBase. Краткое описание HBase.
Hadoop как тренд.
* Краткий обзор технических и бизнес проблем, возникающих при использовании Hadoop
* Шумиха вокруг Hadoop и NoSQL подхода. Описание случаев, когда SQL оказывается удобным.