Data science

5 mẹo để cải thiện quy trình làm việc khoa học dữ liệu của bạn

Hội nghị thượng đỉnh về công nghệ chuyển đổi bắt đầu vào ngày 13 tháng 10 với Mã thấp / Không có mã: Kích hoạt tính nhanh nhạy của doanh nghiệp. Đăng ký ngay! Những lãng phí lớn nhất trong khoa học dữ liệu và học máy không bắt nguồn từ mã không hiệu quả, lỗi ngẫu nhiên hoặc phân tích không chính xác. Chúng bắt nguồn từ những sai sót trong lập kế hoạch và giao tiếp. Những sai lầm trong quá trình thực hiện có thể tốn một hoặc hai ngày để sửa chữa, nhưng những sai lầm trong kế hoạch có thể mất vài tuần đến vài tháng để thiết lập đúng. Dưới đây là năm cách bạn có thể tránh mắc phải những sai lầm đó ngay từ đầu: 1. Đặt mục tiêu (chức năng) phù hợp Nhà toán học và người tiên phong phân tích dữ liệu John Tukey cho biết “một câu trả lời gần đúng cho câu hỏi đúng sẽ tốt hơn một câu trả lời chính xác cho câu hỏi sai . ” Các giải pháp học máy hoạt động bằng cách tối ưu hóa hướng tới một hàm mục tiêu – một công thức toán học mô tả một số giá trị. Một trong những ví dụ cơ bản nhất là hàm lợi nhuận: Lợi nhuận=Doanh thu – Chi phí. Mặc dù các thuật toán học máy vượt trội trong việc tìm ra giải pháp tối ưu, nhưng chúng không thể cho bạn biết liệu bạn có đang tối đa hóa điều phù hợp vào đúng thời điểm hay không. Định kỳ đảm bảo rằng chức năng mục tiêu của bạn phản ánh các ưu tiên và giá trị hiện tại của bạn. Ví dụ, một công ty ở giai đoạn đầu có thể không lo lắng nhiều về lợi nhuận; thay vào đó, họ có thể muốn tối đa hóa doanh thu để cố gắng tăng thị phần. Một công ty đang muốn IPO có thể muốn chứng minh khả năng sinh lời, vì vậy có thể tập trung vào việc giảm thiểu chi phí, trong khi vẫn duy trì mức thị phần như cũ. Việc chỉ nắm bắt số liệu quan trọng hiện tại (doanh thu) tại các thời điểm cụ thể (hàng quý) sẽ cản trở khả năng dự đoán các hàm chi phí mới (khả năng sinh lời) của bạn tại các thời điểm khác nhau. Cùng với đó, các nhà khoa học dữ liệu cũng có thể rơi vào bẫy của việc tối ưu hóa các số liệu của mô hình, chứ không phải số liệu kinh doanh. Ví dụ, các nhà khoa học dữ liệu có thể xem xét sử dụng diện tích dưới đường cong nhớ lại độ chính xác hoặc đường đặc tính hoạt động của máy thu để đánh giá hiệu suất tổng thể của mô hình, nhưng những đường cong đó không nhất thiết phải chuyển sang thành công trong kinh doanh. Thay vào đó, việc đặt một mục tiêu như “Giảm thiểu dương tính giả trong khi duy trì tổng tỷ lệ âm tính giả là X%” có thể phù hợp với điều kiện kinh doanh hiện tại của bạn và có thể được sử dụng để cân nhắc chi phí cụ thể của dương tính giả và âm tính giả. Thu thập dữ liệu dựa trên sự kiện được tổng hợp trước và kiểm tra lại định kỳ vấn đề bạn đang cố gắng giải quyết sẽ cho phép bạn tiếp tục đi đúng hướng, thay vì tối ưu hóa cho vấn đề sai. 2. Đến cùng một trang Đối với các bên liên quan trong doanh nghiệp của bạn, có sự khác biệt rất lớn giữa “Chúng tôi đã thấy độ chính xác tăng 100 điểm trong bộ thử nghiệm gồm 100.000 ví dụ” và “Nếu chúng tôi có những cải tiến này, chúng tôi đã tiết kiệm được 20.000 đô la trong quý kinh doanh cuối cùng. ” Khó hình dung “100.000 ví dụ” và “tăng 100 điểm”, trong khi “20.000 đô la” và “quý kinh doanh cuối cùng” có xu hướng dễ dàng nắm bắt hơn rất nhiều đối với các bên liên quan trong kinh doanh. Chuẩn hóa các đơn vị phân tích của bạn để nhóm của bạn và các nhà lãnh đạo doanh nghiệp dành ít thời gian hơn cho việc dịch và nhiều thời gian hơn để lập ý tưởng. Các thời điểm quan trọng cũng có thể khác nhau tùy theo các bên liên quan trong kinh doanh. Người hành nghề bán hàng hoặc khách hàng thành công có thể cần các biện pháp hàng tuần, hàng tháng hoặc dựa trên sự kiện (tức là sự kiện đăng ký đầu tiên, sự kiện gia hạn, sự kiện yêu cầu hỗ trợ). Trong khi một nhà lãnh đạo doanh thu có thể cần các mô hình cho mỗi phân khúc kinh doanh, đại diện bán hàng hoặc dòng sản phẩm hàng quý hoặc hàng năm. Thu thập dữ liệu ở cấp độ sự kiện để hỗ trợ các thời gian tính toán khác nhau khi chúng phát sinh. Chúng tôi đã tham gia vào các nhóm nơi tập hợp đào tạo và thử nghiệm theo ý muốn của nhà khoa học dữ liệu cụ thể. Các phân tích của chúng tôi không thể so sánh với nhau và các chỉ số mô hình mà chúng tôi sử dụng không thể hiểu được đối với các bên liên quan. Sau khi chúng tôi chuẩn hóa các chỉ số kinh doanh và thời gian có ý nghĩa đối với doanh nghiệp (tức là tất cả các giao dịch từ quý trước, hoạt động đăng ký trong tháng trước), việc so sánh các mô hình bên trong và bên ngoài trở nên dễ dàng hơn và dễ dàng hơn để đưa ra các trường hợp kinh doanh có ảnh hưởng đối với việc sử dụng mô hình của chúng tôi. 3. Cho phép không gian để khám phá Khoa học dữ liệu vốn dĩ là một nỗ lực sáng tạo, đôi khi những tiến bộ trong các mô hình đến từ những nơi không thể ngờ tới. Những đột phá lớn nhất đến từ việc khám phá những con đường mới và những cơ hội mới. Một trong những điều tuyệt vời của khoa học dữ liệu là nó lấy ý tưởng và phương pháp từ nhiều lĩnh vực khoa học. Các thuật toán được phát triển cho di truyền học được sử dụng để phân tích văn học, các phương pháp phân tích văn học có thể được điều chỉnh để tạo các kết quả lãng mạn trên một ứng dụng hẹn hò hoặc cung cấp các đề xuất cho một kỳ nghỉ. Những tiến bộ trong các giải pháp thường đến từ việc nhìn nhận cùng một vấn đề từ một góc độ hoặc hệ quy chiếu khác. Ví dụ: một số mô hình đầu tiên không tính đến thông tin nhân khẩu học. Từ lâu, các nhà khoa học dữ liệu đã hiểu rằng việc bao gồm dữ liệu nhân khẩu học có thể giúp quảng cáo tiếp cận đúng người hoặc đo lường sự thiên vị ngoài ý muốn. Sau đó, khi khung tâm lý học được giới thiệu, các nhà khoa học dữ liệu bắt đầu xem xét vấn đề từ góc độ tâm lý học: Liệu nhân khẩu học và sự quan tâm được chứng minh có thể cải thiện kết quả không? Ví dụ: thêm dữ liệu về những gì ai đó đã chia sẻ trên phương tiện truyền thông xã hội có thể cung cấp liên kết đến những gì họ có khả năng mua. Gần đây, dữ liệu hành vi dựa trên sự kiện, trong thời gian gần thực, đã đi vào không gian mang cả thông tin và thời gian mới vào bức tranh. Thực hiện các giao dịch mua tại trạm xăng rất nhỏ sau đó một phút mua TV rất lớn sau đó có thể báo hiệu thẻ tín dụng bị đánh cắp. Mặc dù bạn không muốn dành toàn bộ thời gian để chạy xuống các hang thỏ và đuổi theo những con ngỗng hoang, nhưng việc dành thời gian để thử các giải pháp mới và sáng tạo hoặc khám phá các góc độ khác nhau sẽ mang lại hiệu quả về lâu dài ở các khả năng mới, mô hình tốt hơn và nhanh hơn thời gian để có kết quả. Cho dù đó là dành thời gian mỗi tuần để theo đuổi khách hàng tiềm năng mới hay thử những điều mới, hoặc cho phép các nhiệm vụ khám phá vào quy trình làm việc của bạn, về lâu dài, bạn sẽ có những nhà khoa học hạnh phúc hơn và kết quả lâu dài tốt hơn bằng cách cho phép họ tìm ra các giải pháp hoặc quan điểm mới cho các vấn đề trong tầm tay. 4. Nói chuyện với người tiêu dùng Nếu bạn xây dựng một mô hình mà không hiểu người dùng cuối của mình và những vấn đề họ đang cố gắng giải quyết, thì mô hình của bạn sẽ thiếu bối cảnh quan trọng. Các nhà lãnh đạo doanh nghiệp có xu hướng xem mọi thứ từ độ cao 50.000 feet, trong khi các mô hình của bạn thường được triển khai ở cấp độ mặt đất với các đại diện bán hàng. Các điều kiện trên mặt đất không bao giờ khớp hoàn toàn với những gì được nhìn từ trên xuống, và vì vậy nếu bạn chỉ tính đến những gì bạn có thể thấy ở cấp cao hơn đó, bạn sẽ bỏ lỡ thông tin quan trọng. Chúng tôi đã dành hàng tháng trời để xây dựng mô hình cho các nhà lãnh đạo doanh nghiệp, chỉ để phát hiện ra rằng hệ thống mà chúng tôi xây dựng để giúp cuộc sống dễ dàng hơn, đã khiến mọi thứ trở nên khó khăn hơn đối với đại diện bán hàng. Chúng tôi đã tiết kiệm được tiền cho công ty, nhưng chúng tôi có thể có tác động lớn hơn, nhanh hơn nhiều nếu chúng tôi xây dựng các hệ thống phù hợp hơn với người dùng cuối của mình. Có vô số điều nhỏ theo ngữ cảnh mà người dùng của bạn coi đó là điều hiển nhiên, và nếu không nói chuyện với khách hàng của bạn và cố gắng hiểu họ, bạn sẽ bỏ lỡ ngữ cảnh quan trọng này. Trao đổi với người dùng của bạn sẽ đảm bảo rằng các mô hình của bạn sẽ giải quyết được nhu cầu của họ. Ví dụ: một đại diện bán hàng có thể được chỉ định cho một lãnh thổ và dòng sản phẩm và mong đợi kiểu máy mà họ được cung cấp phản ánh sắc thái này. Một nhà lãnh đạo doanh thu đang xem xét tất cả các đại diện để dự báo hoạt động kinh doanh. Các tính năng giúp dự đoán mô hình ở cấp độ toàn cầu sẽ không giống với các tính năng ở cấp độ chi tiết hơn. Ngoài ra, một nhà lãnh đạo doanh thu quan tâm nhiều hơn đến việc dự báo chính xác vào đầu quý và tháng. Đại diện bán hàng quan tâm đến thời điểm và những gì họ có thể làm để tăng thành công trên một tài khoản cụ thể. Ngữ cảnh này ngụ ý rằng bạn nên xây dựng ít nhất ba mô hình khác nhau với các tính năng được tính toán tại các thời điểm khác nhau để tăng độ chính xác và ngăn chặn rò rỉ. 5. Các giải pháp tối ưu có xu hướng không tối ưu Các giải pháp tối ưu hóa cao tốn nhiều chi phí để thực hiện hơn, nhiều hơn để duy trì và có xu hướng kém linh hoạt hơn. Xây dựng các giải pháp đơn giản hơn bất cứ khi nào có thể. Chỉ vì một thứ gì đó tốt hơn về mặt lý thuyết, không có nghĩa là nó tốt hơn trên thực tế. Chúng tôi đang làm việc trên một cơ sở dữ liệu ghi nhật ký dự đoán đơn giản để có thể gỡ lỗi và sao chép các dự đoán sản xuất. Lúc đầu, chúng tôi muốn có một số thiết lập AWS Athena không máy chủ ưa thích mà không yêu cầu liên tục chạy một số máy cơ sở dữ liệu. Chúng tôi đã dành một ngày để tìm hiểu Athena để cố gắng thiết lập nó trước khi nhận ra rằng chúng tôi đã chi nhiều tiền hơn cho chi phí trả lương so với một cỗ máy đám mây liên tục sẽ tốn kém để chạy trong hai năm. Điều này gắn liền với việc “thiết lập mục tiêu phù hợp”. Các giải pháp tối ưu hóa chỉ được tối ưu hóa nếu hàm mục tiêu của bạn đúng 100% và không có khả năng thay đổi. Khi nó thay đổi, thì giải pháp được tối ưu hóa cao của bạn có khả năng được tối ưu hóa sai hướng. (Chẳng hạn như một mô hình được tối ưu hóa cao để tăng doanh thu và thị phần, nhưng doanh nghiệp cần chuyển hướng theo hướng có lãi). Một giải pháp ít tối ưu hơn một chút, nhưng linh hoạt hơn, dễ hiểu và thích ứng hơn có thể sẽ phục vụ bạn tốt hơn về lâu dài khi các ưu tiên thay đổi và bạn hiểu rõ hơn về chi phí liên quan đến không gian vấn đề. Bạn sẽ nhận thấy rằng nhiều trong số này hoạt động cùng nhau. Để thiết lập chức năng mục tiêu phù hợp, bạn sẽ muốn nói chuyện với người tiêu dùng của mình và ở trên cùng một trang với bên liên quan của bạn. Khả năng xoay vòng chức năng mục tiêu của bạn để đáp ứng các nhu cầu thay đổi không phải do xây dựng một giải pháp siêu tối ưu cho vấn đề cục bộ, mà là xây dựng một thứ gì đó linh hoạt. Và tất nhiên, việc cho phép không gian khám phá sẽ cho phép khám phá các không gian tối ưu tiềm năng hoặc không gian có vấn đề mới. Các vấn đề kinh doanh và mô hình của bạn sẽ thay đổi theo thời gian; thiết lập cho mình để đạt được thành công không chỉ ngày hôm nay mà còn trong tương lai. Những thay đổi này sẽ không giúp bạn tiết kiệm 5 hoặc 10 phút ở đây hoặc ở đó mà sẽ giúp bạn tiết kiệm hàng tuần nỗ lực bằng cách giảm thiểu thời gian dành cho việc xây dựng các giải pháp sai. Max Boyd là Nhà khoa học dữ liệu cấp cao tại Tomo. Charna Parkey là Phó Giám đốc Sản phẩm tại Kaskada. Nhiệm vụ của VentureBeat VentureBeat là trở thành một quảng trường thành phố kỹ thuật số cho những người ra quyết định kỹ thuật có được kiến ​​thức về công nghệ chuyển đổi và giao dịch. Trang web của chúng tôi cung cấp thông tin cần thiết về công nghệ và chiến lược dữ liệu để hướng dẫn bạn khi bạn lãnh đạo tổ chức của mình. Chúng tôi mời bạn trở thành thành viên của cộng đồng của chúng tôi, để truy cập: thông tin cập nhật về các chủ đề mà bạn quan tâm. Bản tin của chúng tôi có nội dung dẫn dắt tư tưởng và quyền truy cập giảm giá vào các sự kiện được đánh giá cao của chúng tôi, chẳng hạn như Transform 2021: Tìm hiểu thêm về mạng các tính năng và hơn thế nữa Trở thành thành viên

Back to top button