Почему super columns в Кассандре больше не пользуются популярностью?
Я прочитал в последней версии, что супер столбцы нежелательны из-за" проблем с производительностью", но нет, где это объясняется.
тогда я читаю такие статьи, как этот которые дают замечательные шаблоны индексирования с использованием супер столбцов.
Это оставляет меня без понятия о том, что такое в настоящее время лучший способ сделать индексацию в Афинах.
- каковы проблемы производительности супер столбцов?
- где могу ли я найти настоящее рекомендации по индексации?
1 ответов
Super columns страдают от ряда проблем, не последней из которых является то, что Кассандре необходимо десериализовать все подколонны super column при запросе (даже если результат вернет только небольшое подмножество). В результате, существует практическое ограничение на количество суб-столбцы в супер колонки, которые могут быть сохранены до исполнения страдает.
теоретически это может быть исправлено в Cassandra путем правильной индексации подколонок, но консенсус заключается в том, что составные столбцы являются лучшим решением, и они работают без дополнительной сложности.
самый простой способ использовать составные столбцы-воспользоваться абстракцией, которая CQL 3 обеспечивает. Рассмотрим следующую схему:
CREATE TABLE messages(
username text,
sent_at timestamp,
message text,
sender text,
PRIMARY KEY(username, sent_at)
);
Username вот ключ строки, но мы использовали определение первичного ключа, которое создает группировку ключа строки и столбца sent_at. Это важно, поскольку это имеет эффект индексирования, который атрибут.
INSERT INTO messages (username, sent_at, message, sender) VALUES ('bob', '2012-08-01 11:42:15', 'Hi', 'alice');
INSERT INTO messages (username, sent_at, message, sender) VALUES ('alice', '2012-08-01 11:42:37', 'Hi yourself', 'bob');
INSERT INTO messages (username, sent_at, message, sender) VALUES ('bob', '2012-08-01 11:43:00', 'What are you doing later?', 'alice');
INSERT INTO messages (username, sent_at, message, sender) VALUES ('bob', '2012-08-01 11:47:14', 'Bob?', 'alice');
за кулисами Кассандра будет хранить вышеуказанные вставленные данные примерно так:
alice: (2012-08-01 11:42:37,message): Hi yourself, (2012-08-01 11:42:37,sender): bob
bob: (2012-08-01 11:42:15,message): Hi, (2012-08-01 11:42:15,sender): alice, (2012-08-01 11:43:00,message): What are you doing later?, (2012-08-01 11:43:00,sender): alice (2012-08-01 11:47:14,message): Bob?, (2012-08-01 11:47:14,sender): alice
но используя CQL 3, мы можем запросить "строку" с помощью предиката sent_at и получить табличный результирующий набор.
SELECT * FROM messages WHERE username = 'bob' AND sent_at > '2012-08-01';
username | sent_at | message | sender
----------+--------------------------+---------------------------+--------
bob | 2012-08-01 11:43:00+0000 | What are you doing later? | alice
bob | 2012-08-01 11:47:14+0000 | Bob? | alice