Business intelligence

Các nguyên tắc cơ bản của Data Lakehouse

Trong vài năm gần đây, một khái niệm mới trong Kiến trúc dữ liệu đã xuất hiện. Nó được gọi là “data lakehouse”. Data Lakehouse cung cấp một mô hình mới lấy các đặc điểm tốt nhất của kho dữ liệu (một lượng nhỏ dữ liệu được phối hợp) và các hồ dữ liệu (một lượng lớn dữ liệu không được phối hợp) và hợp nhất chúng, cung cấp các công cụ và kiểm soát được cải tiến. Một số tiến bộ công nghệ quan trọng hỗ trợ sự phát triển của các hồ dữ liệu bao gồm: Các lớp siêu dữ liệu để làm việc với các hồ dữ liệu Thiết kế công cụ truy vấn mới cho các tìm kiếm SQL trên các hồ dữ liệu với nhiều loại thông tin được hỗ trợ bởi các hồ dữ liệu. Việc hợp nhất các kho dữ liệu với các hồ dữ liệu, để tạo ra một hồ chứa, dẫn đến một hệ thống duy nhất cho phép các nhà nghiên cứu di chuyển nhanh hơn và hiệu quả hơn mà không cần phải truy cập vào nhiều hệ thống. Các kho dữ liệu hỗ trợ cả hệ thống SQL và dữ liệu phi cấu trúc, đồng thời có khả năng làm việc với các công cụ thông minh kinh doanh. Các doanh nghiệp hiện đại nhận thấy các ứng dụng dữ liệu đa dạng, bao gồm giám sát thời gian thực, phân tích SQL và học máy, khá hữu ích. Kho dữ liệu được phát triển vào cuối 1980 và là một nơi tuyệt vời để lưu trữ “dữ liệu có cấu trúc”. Chúng là cơ sở dữ liệu quan hệ được thiết kế cho các truy vấn và phân tích, và thường chứa dữ liệu lịch sử đã được lấy từ dữ liệu giao dịch. Mặt khác, hồ dữ liệu là không gian lưu trữ tổng hợp, tập trung, không tương quan cho dữ liệu thô, chẳng hạn như dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc. Các hồ dữ liệu không cần một lược đồ xác định trước, nhưng do đó, các phản hồi truy vấn của chúng không đáng tin cậy và chúng không hỗ trợ ACID. Các hồ dữ liệu đã được phát triển xung quanh 2015, để lưu dữ liệu có thể có giá trị. Các hồ dữ liệu nhanh chóng trở nên phổ biến cho nghiên cứu dữ liệu lớn. Việc sử dụng ban đầu của thuật ngữ “data lakehouse” là do một doanh nghiệp có tên là Jellyvision (một khách hàng của Snowflake). Snowflake đã chọn cái tên này và quảng bá nó trong 2017, mô tả những nỗ lực của họ trong việc kết hợp xử lý dữ liệu có cấu trúc với hệ thống schemaless. AWS sau đó bắt đầu sử dụng thuật ngữ này để mô tả các dịch vụ phân tích và dữ liệu “kiến trúc nhà hồ”. Một trong những điểm mạnh chính của data lakehouse được gọi là lớp giao dịch có cấu trúc, được phát triển bởi Databricks trong 2019. Những nỗ lực ban đầu để phát triển các kho dữ liệu còn vụng về, hạn chế và không ấn tượng lắm. Đây là lý do tại sao một số nhà nghiên cứu bày tỏ quan điểm thấp về khái niệm này, và đặt câu hỏi về giá trị của những ngôi nhà ven hồ. (Cần lưu ý, những nỗ lực / thử nghiệm ban đầu thường vấp phải sự chỉ trích và phản đối, nhưng các mô hình đáng giá thường sẽ được cải thiện theo thời gian và nỗ lực.) Vấn đề về dữ liệu Lakehouse Hiện tại, có những tình huống khi nhà hồ đơn giản là không hiệu quả bằng kho dữ liệu, vốn có đã có nhiều năm đầu tư, cũng như triển khai trong thế giới thực, được tích hợp vào chúng. Ngoài ra, các nhà nghiên cứu có thể thích một số công cụ nhất định (IDE, công cụ thông minh kinh doanh), những công cụ này sẽ cần được tích hợp vào một kho dữ liệu mới. Nhà hồ vẫn đang trong giai đoạn đầu của quá trình phát triển và đây là hai vấn đề cơ bản mà chúng gặp phải: Công nghệ vẫn chưa phát triển: Các phiên bản hoàn thiện hơn của nhà hồ sẽ bao gồm một lượng đáng kể máy học. Cấu trúc nguyên khối: Các hồ dữ liệu kiểm soát các hồ dữ liệu và kho dữ liệu được hợp nhất, tạo thành các cấu trúc nguyên khối, đồ sộ. Những ngôi nhà ven hồ quá khổ này có thể trở nên không linh hoạt và khó làm việc. Người đồng sáng lập và CTO của Immuta, Steve Touw, mô tả về nền tảng Lakehouse của họ, cho biết, “Khi các tổ chức trên thế giới ngày càng nắm lấy các kiến ​​trúc Lakehouse trên đám mây, họ đang phải đối phó với các chính sách kiểm soát truy cập không nhất quán về bảo mật dữ liệu và quyền riêng tư trên các công nghệ khác nhau. Đối mặt với những thách thức mới này, cần thiết phải cung cấp khả năng kiểm soát truy cập dữ liệu đám mây nhất quán và ổn định. Bản phát hành mới nhất của chúng tôi cung cấp cho các nhóm kỹ thuật và vận hành dữ liệu một nền tảng kiểm soát truy cập chung, duy nhất để đơn giản hóa và mở rộng quy mô truy cập phân tích mà không ảnh hưởng đến bảo mật hoặc kiểm soát quyền riêng tư ”. Lợi ích của Data Lakehouse Thu thập thông tin kinh doanh bằng cách xử lý dữ liệu phi cấu trúc, bao gồm video, âm thanh, văn bản và hình ảnh, đã trở thành một nhu cầu cần thiết đối với các doanh nghiệp. Bởi vì kho dữ liệu không được thiết kế cho dữ liệu phi cấu trúc, một số tổ chức đã chọn quản lý đồng thời nhiều hệ thống (một số kho dữ liệu, một hồ dữ liệu, các hệ thống chuyên biệt khác). Mặc dù chiến thuật này giải quyết được một số vấn đề, nhưng nó rất vụng về, không hiệu quả và lãng phí tiền bạc. Ngoài ra, việc duy trì nhiều hệ thống khác nhau có thể làm chậm nỗ lực đạt được thông tin kinh doanh hữu ích và kịp thời. Data Lakehouse được thiết kế để điều hòa dữ liệu có cấu trúc, được lưu trữ trong các cột và hàng, với dữ liệu phi cấu trúc thường được đưa vào các hồ dữ liệu. Ori Rafael, Giám đốc điều hành của Upsolver, đồng thời là người đồng sáng lập, cho biết: “Với một ngôi nhà hồ, bạn đang nhận được lợi thế về chi phí của một hồ dữ liệu, nhưng bạn đang quản lý để sử dụng các công cụ mà bạn đang sử dụng hiện nay, cung cấp khả năng truy cập dễ dàng. Lakehouse là hồ dữ liệu không có tất cả các giới hạn và khó khăn để truy cập dữ liệu. ” Nói chung, một cơ sở dữ liệu duy nhất có một số lợi thế so với một hệ thống nhiều giải pháp, bao gồm: Các công cụ có quyền truy cập trực tiếp vào dữ liệu cho các mục đích phân tích trong dự phòng Loại bỏ tình trạng trì trệ trong các hồ dữ liệu, vốn có thể nhanh chóng trở thành vùng đầm lầy dữ liệu nếu không được dự phòng Hỗ trợ phát trực tuyến từ đầu đến cuối theo thời gian thực. Được sử dụng để tinh chỉnh, truy cập và phân tích các loại dữ liệu, bao gồm video, âm thanh, hình ảnh và văn bản. các công nghệ mới hơn, tiên tiến hơn, chẳng hạn như trí tuệ nhân tạo, máy học và khoa học dữ liệu. Nền tảng này kết hợp các kho dữ liệu, hồ dữ liệu và kho dữ liệu theo chủ đề cụ thể để cung cấp thông tin chính xác, do đó, có thể hỗ trợ nhiều dự án khác nhau. Snowflake Lakehouse là một nền tảng tích hợp có khả năng thực hiện nhiều chức năng, bao gồm: Phát triển ứng dụngTruy cập dữ liệu nhanh chóng hồ nước. Nền tảng hợp nhất của họ đơn giản hóa kiến ​​trúc bằng cách loại bỏ các silo dữ liệu và họ đã phát triển lớp giao dịch có cấu trúc trong 2019, cung cấp khả năng quản trị, chất lượng, cấu trúc và hiệu suất. Lakehouse của họ hỗ trợ: Kỹ thuật dữ liệu Trí thông minh doanh nghiệp và phân tích SQL Ứng dụng máy móc Ứng dụng dữ liệu thời gian thực Amazon Redshift Nền tảng Lakehouse Amazon Redshift hỗ trợ nghiên cứu trên các kho dữ liệu, hồ dữ liệu và cơ sở dữ liệu hoạt động. Với kiến ​​trúc này, dữ liệu có thể được lưu trữ ở các định dạng tệp mở trong hồ dữ liệu Amazon S3. Sự sắp xếp này giúp dữ liệu dễ dàng truy cập vào các công cụ phân tích và học máy, thay vì chuyển nó vào một silo. Kiến trúc nhà hồ Amazon Redshift hỗ trợ: Truy vấn hồ dữ liệu dễ dàng sử dụng các định dạng mở cung cấp khả năng quản lý dữ liệu trong môi trường mở, đồng thời kết hợp nhiều định dạng dữ liệu từ tất cả các bộ phận của doanh nghiệp. Mặc dù các bài đánh giá về phiên bản đầu tiên của nó có thể khiến bạn nghi ngờ về hiệu quả của nó, nhưng nó dường như đang trở nên phổ biến như một cách hiệu quả hơn để lưu trữ và xử lý khối lượng lớn dữ liệu không cấu trúc, có cấu trúc và bán cấu trúc. Có những lợi thế rõ ràng về hiệu suất và hiệu quả trong việc sử dụng các kho dữ liệu và có thể dự đoán được, chúng sẽ tiếp tục phát triển khi hệ thống tiến bộ và các ứng dụng và công cụ mới được phát triển. Juan Harrington tại Omnitech gần đây đã viết: “Lakehouse là một cách tiếp cận kiến ​​trúc mới để giải quyết một số vấn đề ngày nay của phân tích và học máy ở quy mô lớn. Mặc dù vẫn còn trong giai đoạn sơ khai, nhưng Lakehouse sẽ tiếp tục phát triển và trưởng thành. ” Hình ảnh được sử dụng theo giấy phép từ Shutterstock.com

  • Trang chủ
  • Trí tuệ nhân tạo
  • Chuyên viên phân tích kinh doanh
  • Thông tin kinh doanh
  • Khoa học dữ liệu
  • Back to top button