Data science

ClickHouse cột cửa hàng nhanh chóng quay ra từ Yandex, tăng $ 50 triệu

Gã khổng lồ tìm kiếm của Nga Yandex trong tuần này đã thông báo rằng họ đã tách cơ sở dữ liệu phân tích theo hướng cột phân tán ClickHouse thành công ty riêng của mình. Có trụ sở tại Thành phố New York, ClickHouse Inc. cũng đã được cấp vốn Series A 50 triệu đô la Mỹ để bắt đầu hoạt động kinh doanh của mình. Yandex có trụ sở tại Moscow bắt đầu phát triển cơ sở dữ liệu ClickHouse trong 2009, và nó đã được đưa vào phục vụ vài năm sau đó, chương trình phụ trợ OLAP cho dịch vụ phân tích Web Yandex.Metrica của nó. Ưu điểm chính của cơ sở dữ liệu là khả năng liên tục xử lý lượng lớn dữ liệu trên quy mô lớn với độ trễ tương đối thấp, đây tiếp tục là một thách thức kỹ thuật mà các tổ chức có yêu cầu về dữ liệu lớn phải đối mặt. Bằng cách lưu trữ dữ liệu trong các cột được tổng hợp trước và sử dụng các kỹ thuật khác – bao gồm nén, tính toán vectơ và khả năng mở rộng quy mô tuyến tính, trong số những kỹ thuật khác – ClickHouse đã có thể đạt được cấp cao hơn về hiệu suất. Theo Yandex, ClickHouse có thể quét hàng trăm triệu hàng (đại diện cho hàng chục gigabyte) mỗi giây, cho phép người dùng chạy các truy vấn SQL trên tập dữ liệu quy mô petabyte với độ trễ dưới giây. Tức là 100 x thành 1, 000 x nhanh hơn so với truyền thống cơ sở dữ liệu, công ty tuyên bố. Trong một bài đăng trên blog, người đồng sáng lập ClickHouse và CTO Alexey Milovidov, người sáng tạo ban đầu của ClickHouse, đã thảo luận về lịch sử của cơ sở dữ liệu và nguồn lợi thế công nghệ của nó. “Ưu điểm đáng chú ý nhất của ClickHouse là tốc độ xử lý truy vấn cực cao và hiệu quả lưu trữ dữ liệu,” Milovidov viết. “Trong các kho dữ liệu thế hệ trước, bạn không thể chạy các truy vấn tương tác mà không có sự tổng hợp trước; hoặc bạn không thể chèn dữ liệu mới trong thời gian thực trong khi phục vụ các truy vấn tương tác; hoặc bạn không thể chỉ lưu trữ tất cả dữ liệu của mình. Với ClickHouse, bạn có thể lưu giữ tất cả hồ sơ miễn là bạn cần và tạo báo cáo tương tác theo thời gian thực trên toàn bộ dữ liệu. ” Lịch sử của ClickHouse (Nguồn: ClickHouse) Đâu là nước sốt bí mật khiến ClickHouse phát triển nhanh như vậy? Theo phần “các tính năng khác biệt” của trang web ClickHouse, cơ sở dữ liệu tránh được việc lưu trữ các giá trị phụ và lưu trữ dữ liệu làm khóa chính, như một cơ sở dữ liệu hướng cột “đúng”, là các khía cạnh chính của lợi thế của nó. (Thật thú vị khi thấy comapny thừa nhận những nhược điểm của cách tiếp cận của mình, bao gồm không có giao dịch chính thức và không hỗ trợ cập nhật, lưu cho một số cập nhật hàng loạt và chức năng xóa để tuân thủ GDPR.) Theo Milovidov, không có một số chỉ một thứ. “… ở đây không có 'viên đạn bạc', ông viết. “Ưu điểm chính là chú ý đến các chi tiết của khối lượng công việc sản xuất khắc nghiệt nhất.” Ngay sau khi triển khai ClickHouse tại Yandex.Metrica, nó đã được chấp nhận bởi phần lớn Yandex, công ty Internet lớn nhất ở Châu Âu với hơn 14, 000 người lao động. Tại thời điểm đó, Milovidov nói rằng ông biết phần mềm cần được áp dụng rộng rãi hơn. “Có lẽ ClickHouse quá tốt để chỉ chạy bên trong Yandex?” anh ấy đã viết trong blog. “Làm mã nguồn mở rất khó, nhưng đó là một thắng lợi lớn. Mặc dù cần phải có nỗ lực và trách nhiệm to lớn để duy trì một sản phẩm nguồn mở phổ biến, nhưng đối với chúng tôi, lợi ích vượt trội hơn tất cả các chi phí bỏ ra. ” Trong 2016, Yandex đã phát hành ClickHouse dưới dạng cung cấp mã nguồn mở sử dụng Giấy phép Apache 2.0. Điều đó dẫn đến sự tăng trưởng theo cấp số nhân và được hàng nghìn công ty trên khắp thế giới, bao gồm Uber, Comcast, eBay và Cisco, chấp nhận, theo Yandex. Người tạo ClickHouse Alexey Milovidov Một số câu chuyện về việc chấp nhận của khách hàng rất hấp dẫn. Ví dụ: Uber đã sử dụng ClickHouse làm nền tảng ghi nhật ký cốt lõi của mình để xử lý hàng triệu nhật ký mỗi giây từ hàng nghìn dịch vụ, đại diện cho vài petabyte dữ liệu trong dịch vụ. Theo báo cáo vào tháng 2 2021, Clickhouse đã tăng hiệu suất 10 x so với ELK của nó (Elastic, Logstash, Kibana) triển khai. Trong khi đó, Spotify đã sử dụng ClickHouse để cung cấp năng lượng cho chế độ thử nghiệm A / B trong hệ thống quản lý nhật ký dựa trên Google Cloud của mình, hệ thống này đã thay thế cụm Hadoop 2, 500 – nút. Công ty cần có khả năng chạy hàng trăm truy vấn mỗi giây, đại diện cho hàng trăm tỷ hàng mỗi ngày. Khi chọn ClickHouse thay vì BigQuery, nó đã trích dẫn sự đơn giản của kiến ​​trúc, một bộ tổng hợp và chức năng tích hợp toàn diện cũng như tích hợp Superset, trong số các lý do khác. Deutsche Bank đã thông qua ClickHouse làm nền tảng cho kho dữ liệu của mình, phục vụ nhiều trường hợp sử dụng khác nhau, bao gồm tuân thủ quy định, rủi ro, giao dịch và các sáng kiến ​​về khách hàng của bạn. Theo bản trình bày này, ngân hàng đã thử nhiều cơ sở dữ liệu khác bao gồm KDB +, Vertica, Hive và Spark. Ngày nay, nó đã giải quyết bằng sự kết hợp của Spark, Alpakka, Kafka, Tableau, RShiny và Clickhouse để tăng sức mạnh cho các truy vấn của nó. “Sự đa dạng của các cách mà các công ty đang triển khai ClickHouse là vô cùng hấp dẫn và nói lên sức mạnh của công nghệ”, đồng sáng lập ClickHouse và chủ tịch sản phẩm và kỹ thuật Yury Izrailevsky, người đã rời bỏ công việc là phó chủ tịch kỹ thuật của Google và sẽ dẫn đầu phát triển sản phẩm tại ClickHouse. “Việc thành lập ClickHouse Inc. sẽ cho phép chúng tôi tập trung vào việc làm cho sản phẩm trở nên mạnh mẽ hơn nữa, đặc biệt là khi được triển khai trong môi trường đám mây.” Milovidov và Izrailevsky có sự tham gia của Aaron Katz, cựu chiến binh ở Thung lũng Silicon, là CEO và là đồng sáng lập của công ty ở Thành phố New York. Mike Volpi, Đối tác tại Index Ventures, đồng dẫn đầu vòng này cùng với Benchmark, nhận thấy điều gì đó ở ClickHouse khiến anh nhớ đến các công ty công nghệ đang phát triển mạnh mẽ khác. Volpi cho biết: “Chúng tôi là những người tin tưởng và đầu tư sớm vào cơ sở hạ tầng dữ liệu tại Index và đã may mắn được làm việc với các nhà lãnh đạo như Elastic, Confluent và Datadog từ những ngày đầu tiên của họ. “Rõ ràng là ClickHouse có một quỹ đạo thú vị tương tự, với sự chấp nhận ấn tượng và tiếng vang của cộng đồng.” Các mục liên quan: Đám mây quân đội toàn tình nguyện viên có phải là Trung tâm trọng điểm mới cho việc lưu trữ dữ liệu Khách hàng có muốn nền tảng dữ liệu mở không?

Back to top button