Data science

Ở Pittsburgh, quy trình học máy hai bước phân loại tem hiếm

Bỏ qua sự gia tăng tương đối gần đây của chữ ký điện tử, tem cá nhân hóa đã là một hình thức nhận dạng phổ biến cho các văn bản chính thức ở Đông Á. Những dấu hiệu nhận dạng này – dễ dàng giả mạo, nhưng phổ biến về mặt văn hóa – là chủ đề nghiên cứu của Raja Adal, phó giáo sư lịch sử tại Đại học Pittsburgh. Nhưng, hóa ra, chuyên môn của con người cần thiết để nghiên cứu những con tem này trên quy mô lớn là rất khó – vì vậy Adal đã chuyển sang hỗ trợ siêu máy tính AI để giúp một tay. “ quan điểm của khoa học xã hội, điều quan trọng không phải là những công cụ này không thể giả mạo — chúng không phải — mà là chúng là một phần của quy trình mà các tài liệu được tạo ra, chứng nhận, lưu hành và phê duyệt, ”Adal giải thích trong một cuộc phỏng vấn với Ken Chiacchia của Trung tâm Siêu máy tính Pittsburgh (PSC). “Để hiểu chi tiết của quá trình này, rất hữu ích khi có một cơ sở dữ liệu lớn. Nhưng cho đến nay, thật khó có thể dễ dàng lập chỉ mục hàng chục nghìn con tem trong một kho tài liệu, đặc biệt là khi những tài liệu này đều bằng một ngôn ngữ như tiếng Nhật, sử dụng hàng nghìn ký tự Trung Quốc khác nhau ”. Cụ thể, Adal đang làm việc với kho lưu trữ tài liệu từ công ty Mitsui Miike Mine của Nhật Bản, tạo thành một trong những kho lưu trữ tài liệu kinh doanh lớn nhất từ ​​Nhật Bản hiện đại, kéo dài năm mươi năm và hàng chục nghìn tài liệu – bao gồm 5, 056 hình ảnh của tem. Việc ghi lại hàng nghìn con tem đa dạng này sẽ là một nhiệm vụ khổng lồ đối với một số trợ lý nghiên cứu chuyên môn cao – vì vậy Adal đã liên hệ với Paola Buitrago, giám đốc AI và dữ liệu lớn tại PSC lân cận. Cơ sở dữ liệu của Mitsui Miike Mine đã đặt ra các vấn đề cho việc đào tạo một mô hình học máy, vì nhiều con tem đa dạng chỉ xuất hiện một vài lần – hoặc thậm chí chỉ một lần. Vì vậy, nhóm nghiên cứu đã áp dụng quy trình học máy gồm hai bước: đầu tiên, họ đào tạo mô hình để phân loại các đối tượng chung; sau đó, họ xếp lớp trên đó một mô hình phân loại để nhóm các tem, cho phép các tem hiếm được nhóm lại với nhau. Số lượng tem theo lớp (cắt bớt bên phải). Hình ảnh lịch sự của PSC. Việc chạy mô hình học máy này cần đến sức mạnh tính toán – tất nhiên là Trung tâm Siêu máy tính Pittsburgh đã có trong tay. Adal và Buitrago lần đầu tiên tận dụng lợi thế của GPU trên siêu máy tính Bridges, sau đó, khi nó ngừng hoạt động vào tháng 2, chuyển sang người kế nhiệm, Bridges-2 – được trang bị nhiều GPU hơn (và mạnh hơn) để phân tích hình ảnh. Tận dụng các nguồn lực, nhóm nghiên cứu đã chỉ ra rằng liên tục huấn luyện mô hình đã tăng gần gấp đôi độ chính xác (từ 44. 7 phần trăm đến . 3 phần trăm). Bây giờ, nhóm đang xem xét việc áp dụng mô hình trong các lĩnh vực nghiên cứu khác. Để tìm hiểu thêm, hãy đọc báo cáo từ Ken Chiacchia của PSC tại đây. Hình ảnh tiêu đề: ví dụ về tem từ kho lưu trữ. Hình ảnh lịch sự của PSC.

Back to top button