Data science

Vẫn muốn: (Nhiều) Dữ liệu COVID tốt hơn

Nó đã không xảy ra theo cách này. Với ba loại vắc-xin COVID hiệu quả, chúng ta được cho là đã ở tận cùng của đại dịch. Nhưng điều đó đã không xảy ra. Tỷ lệ lây nhiễm đang gia tăng nhanh chóng khi biến thể Delta lây lan và các quan chức đang cân nhắc các yêu cầu về mặt nạ mới và thậm chí là khóa máy. Hơn nữa, dữ liệu vẫn còn là một mớ hỗn độn. Ngoại trừ một số trường hợp ngoại lệ, dữ liệu đã là một trở ngại lớn đối với phản ứng COVID ở Hoa Kỳ kể từ khi đại dịch bắt đầu vào tháng Hai 2020. Lên và xuống phổ, phản hồi đã bị cản trở bởi nhiều vấn đề dữ liệu. Thử nghiệm COVID đầu tiên của CDC đã bị lỗi, khiến phản ứng của Hoa Kỳ lùi lại sau nhiều tuần. Các xét nghiệm sau đó tốt hơn, nhưng tỷ lệ dương tính giả vẫn ở mức cao. Các phương pháp theo dõi và theo dõi còn thiếu sót và thiếu nhân lực. Hơn nữa, các bệnh viện và cơ quan chính phủ ở tất cả các cấp sử dụng một loạt các kỹ thuật thu thập, phân tích và báo cáo dữ liệu, điều này làm tổn hại đến khả năng hiểu rõ ràng của những người ra quyết định về những gì đang thực sự xảy ra trên thực tế. Chuỗi cung ứng dữ liệu COVID kém sẽ tạo ra thêm các vấn đề về hạ nguồn. Nếu không có đường cơ sở tốt trong thế giới thực, các mô hình dự đoán không thể đưa ra dự báo chính xác về sự lây lan của coronavirus. Điều đó cuối cùng cản trở khả năng đưa ra quyết định đúng đắn của các quan chức công để chống lại sự lây lan của SARS2. Nhiều nhóm đã cố gắng khắc phục vấn đề. Datanami đã báo cáo cách các nhà cung cấp trong không gian dữ liệu lớn, bao gồm Snowflake, Talend và AtScale, có các tài nguyên dành riêng để thử và làm thẳng các phần tử dữ liệu nhất định. Bảng điều khiển COVID – 19 của Đại học Johns Hopkins đã trở thành tiêu chuẩn defacto cho số lượng trường hợp và số lượng tử vong. The New York Times aslo đã tăng cường hoạt động như một cơ quan thanh toán dữ liệu về đại dịch. Một 'Công việc chắp vá lộn xộn' Vào tháng 3 2020, các biên tập viên của tạp chí hàng tháng The Atlantic đã rất ngạc nhiên vì thiếu dữ liệu tốt về đại dịch và cam kết sẽ làm gì đó bằng cách tạo Dự án Theo dõi COVID. Jonathan Gilmour, người làm việc trên cơ sở hạ tầng dữ liệu cho dự án, viết: “Trong suốt đại dịch, dữ liệu thử nghiệm và kết quả COVID – 19 là một mớ hỗn độn. một bài đăng trên blog tháng 5 2021. “Các quốc gia thường xuyên thay đổi cách thức, cái gì và nơi họ báo cáo dữ liệu. Trong trường hợp không có các hướng dẫn rõ ràng của liên bang, các bang phần lớn phải tìm cách xuất bản dữ liệu mà không cần trợ giúp. ” Sự khác biệt về số lượng thử nghiệm do tiểu bang báo cáo so với liên bang được báo cáo đối với các tiểu bang xác định các thử nghiệm giống như cách của chính phủ liên bang nhưng có sự khác biệt> 5% về số lượng thử nghiệm. (Nguồn ảnh: Dự án Theo dõi COVID) Cuối cùng, các tình nguyện viên của Dự án Theo dõi COVID đã mang lại nhiều hơn 20, 000 hàng giờ của họ để có được dữ liệu rõ ràng và nhất quán. Dự án này được thực hiện thủ công một cách đáng ngạc nhiên, vì tự động hóa sẽ dẫn đến sự gia tăng các lỗi dữ liệu. Trong bối cảnh các bảng điều khiển tình trạng của tiểu bang và quận liên tục thay đổi, dự án dựa vào một hệ thống theo dõi ảnh chụp màn hình khá thô sơ để cung cấp cho nó “sự thật cơ bản” cần thiết để duy trì chính xác dữ liệu chuỗi thời gian. Gilmour viết: “Tìm kiếm và nhập thủ công từng điểm dữ liệu đã cho chúng tôi hiểu chi tiết về dữ liệu mà chúng tôi sẽ không thể phát triển nếu chúng tôi tự động thu thập dữ liệu. “Chúng tôi biết khi nào các điểm dữ liệu mới được thêm vào và bắt gặp các cảnh báo và ghi chú được đăng trên các trang dữ liệu của tiểu bang…. Ngoài ra, chúng tôi đã học được điều gì là bình thường và điều gì là bất thường trên cơ sở từng tiểu bang, cho phép chúng tôi đưa ra quyết định sáng suốt khi xử lý báo cáo bất thường. ” Dự án Theo dõi COVID đã ngừng thu thập dữ liệu vào tháng 3, khi có vẻ như vắc xin sẽ đưa chúng ta ra khỏi rừng. Hồi đó, bạn sẽ nhớ rằng, nỗ lực tiêm chủng đã diễn ra quá mức và hàng triệu người Mỹ đã được tiêm phòng mỗi tuần. Điều đó dẫn đến việc giảm đáng kể các ca nhiễm trùng, bằng bất kỳ biện pháp nào. Tuy nhiên, tình trạng nhiễm trùng đang gia tăng trở lại, do sự chần chừ của vắc-xin và biến thể Delta cực kỳ dễ lây lan đã kết hợp với nhau để tạo ra một đợt tăng COVID vào mùa hè trông đáng kể giống như con số của mùa hè năm ngoái (nếu có thể tin được). Điều đó đặt các quan chức y tế công cộng vào thế khó xử. Thật không may, dữ liệu đã không được cải thiện nhiều kể từ khi dịch bắt đầu. Với việc tiêm chủng đang suy yếu, liệu họ có đủ thông tin để áp đặt các nhiệm vụ hoặc khóa khẩu trang mới không? Chuyên gia phân tích về 'Dữ liệu không được quản lý' Tom Davenport là đồng tác giả của một câu chuyện Đánh giá về Quản lý của MIT Sloan vào tháng 8 2020 về tình trạng kém chất lượng của dữ liệu COVID. Các tác giả đã viết: “Người ta buộc phải kết luận rằng dữ liệu cần thiết để quản lý đại dịch COVID – 19 không được quản lý một cách hiệu quả. Đây là một vấn đề cấp tính, đòi hỏi sự quan tâm khẩn cấp của các chuyên gia ”. (Matt Bannister / Shutterstock) Vâng, bây giờ là tháng 8 2021, và không có nhiều thay đổi khi nói đến dữ liệu, theo Davenport. Thật vậy, cơ hội để cải thiện tình hình dường như đã trôi qua chúng tôi. “Rất nhiều năng lượng để thay đổi môi trường dữ liệu đã bốc hơi khi vắc-xin có sẵn và mọi người nghĩ rằng 'Chúng ta đang ở trong rừng trên cái đó. Có lẽ là cái tiếp theo. Nhưng chúng tôi có nhiều thời gian để giải quyết vấn đề đó '', Davenport nói với Datanami vào tuần trước. Ngay cả vào mùa hè năm ngoái, trước khi sự gia tăng dự đoán vào mùa thu (hóa ra là tồi tệ hơn dự đoán), không có nhiều cấp thiết để cải thiện tình hình dữ liệu. Vị trí giám đốc dữ liệu (CDO) tại Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh (CDC) đã không được lấp đầy trong thời gian đầu của đại dịch cho đến khi Alan Sim, người lãnh đạo nhóm khoa học dữ liệu tại nhà thầu quốc phòng khu vực DC, nhận việc vào tháng 12. 2020. Davenport nói: “Chúng tôi nghĩ rằng đã quá muộn để làm quá nhiều với đại dịch hiện nay. “Nhưng bây giờ chúng ta thấy nó kéo dài ra bao lâu, có lẽ vẫn chưa muộn. Đã có thời gian để thực hiện một số thay đổi, nếu chúng tôi có khuynh hướng như vậy. ” Davenport cho biết, vấn đề lớn nhất đối với việc ứng phó với đại dịch là thiếu thẩm quyền và tiêu chuẩn tập trung. Ông cho biết thêm, việc theo dõi và truy tìm các địa chỉ liên hệ COVID, một phương pháp đã được thử nghiệm và đúng để hiểu cách thức lây lan của virus, đã không thành công. Trên khắp hội đồng quản trị, đã có những thất bại trong việc thu thập dữ liệu cần thiết để đối mặt với căn bệnh này. Ông nói: “Về cơ bản, chúng tôi đã đối xử với nó như thể nó là một căn bệnh địa phương mà mỗi bang có thể tự giải quyết. “Tôi không nghĩ rằng chúng ta hiểu đủ về động lực của căn bệnh này để làm tốt công việc thiết lập các chính sách mặt nạ và chắc chắn không phải khóa. ” Lời kêu gọi về các tiêu chuẩn dữ liệu liên bang Mặc dù CDC về mặt lý thuyết đã có kế hoạch thu thập và đánh giá dữ liệu với các cơ quan y tế của tiểu bang và địa phương ở mức độ tích hợp hơn, nhưng điều đó dường như không bao giờ thành hiện thực, theo Davenport. Ông nói: “Cleary, nếu chúng ta giao CDC chịu trách nhiệm chống đại dịch ở Mỹ, thì tôi nghĩ chúng ta sẽ cần phải có một số tiêu chuẩn và quy trình dữ liệu rõ ràng. Tuy nhiên, có những trở ngại, bắt đầu với CDC, vốn trước đây không hướng tới dữ liệu, ông nói. Ông nói: “Họ đã làm rất tốt trong việc chống lại đại dịch ở các nước khác, Ebola, v.v. “Nhưng chúng tôi chưa có bất kỳ đại dịch nào ở Mỹ, vì vậy tôi đoán không có gì ngạc nhiên khi chúng tôi có một cách tiếp cận tồi để quản lý dữ liệu cho nó.” Tom Davenport là Giáo sư xuất sắc của Chủ tịch về Công nghệ Thông tin và Quản lý tại Trường Cao đẳng Babson, người đồng sáng lập Viện Quốc tế về Phân tích, Thành viên của Sáng kiến ​​MIT về Kinh tế Kỹ thuật số và Cố vấn Cấp cao của Deloitte Analytics. Davenport thừa nhận rằng ông không phải là chuyên gia về luật, nhưng từ góc độ là một chuyên gia phân tích, chắc chắn (và đang) cần phải có sự tiêu chuẩn hóa và tập trung hóa nhiều hơn. Ngay cả khi không có bầu không khí chính trị chia rẽ rõ rệt như hiện nay, Davenport vẫn nghi ngờ về việc liệu một người có thể khiến 50 các bang đồng ý với nhau về bất cứ điều gì hay không. Điều đó khiến chúng ta rơi vào cùng một con thuyền như chúng ta ngày nay, với một loạt các cơ quan y tế công cộng khác nhau hoạt động độc lập với nhau, khiến dữ liệu – tức là bản ghi thống kê của các sự kiện – được giải thích theo những cách khác nhau. Ông nói, điều cần thiết là một bộ tiêu chuẩn dữ liệu liên bang rõ ràng cho các sự kiện liên quan, bao gồm điều gì tạo thành trường hợp COVID và điều gì tạo thành một cái chết, v.v. Điều này sẽ giảm thiểu việc đếm hai lần và các sai sót khác không chỉ khiến các nhà hoạch định chính sách có cái nhìn không chính xác về hồ sơ mà còn làm giảm niềm tin vào các cơ quan y tế công cộng. Chính sách này có thể được thực thi với một đạo luật quy định rằng các sở y tế địa phương và tiểu bang độc lập muốn có đô la liên bang để giúp chống lại đại dịch sẽ phải tuân theo các tiêu chuẩn liên bang, ông nói. “Tôi không biết điều đó sẽ diễn ra như thế nào,” Davenport nói. “Tôi hy vọng rằng có một số người trong chính quyền Biden đang suy nghĩ về điều này. Nhưng tôi chưa thấy bất kỳ thông báo nào về bất kỳ thay đổi chính sách nào liên quan đến dữ liệu cho đến nay ”. Các mục liên quan: Việc thiếu dữ liệu tốt gây ảnh hưởng đến COVID như thế nào – 19 Dữ liệu phản hồi + Bài học AI học được từ Covid – 19 (Hội thảo trên web của Datanami và H2O.ai) Thẻ báo cáo dữ liệu COVID: Kết quả hỗn hợp cho sức khỏe cộng đồng

Back to top button