Từng bước nâng tầm dữ liệu phần 1

Excel có lẽ là thứ mà ai cũng nghĩ đến đầu tiên khi cần tập hợp dữ liệu: khả năng lưu trữ lên đến 1 triệu dòng, xử lý dữ liệu vô cùng linh hoạt với hàng ngàn hàm và công thức, thiết kế biểu đồ đa dạng cùng với sự vi diệu của Macro và trên hết là chi phí chỉ bằng con muỗi khi so với giải pháp khác.
Nhưng dữ liệu doanh nghiệp cần nhiều hơn như thế. Nó đòi hỏi sự tương tác của nhiều phòng ban đội nhóm, với sự phân quyền về chức năng (tạo, xóa, sửa) – và truy xuất dữ liệu (ai được thấy, thao tác dữ liệu nào). Vì thế, dù Excellent trong việc quản lý dữ liệu cá nhân, nhưng Excel đành ngậm ngùi rút khỏi cuộc chơi.
Chia tay Excel sớm để không luyến tiếc và mất thời gian nhấp nhổm “nên hay không Excel”, chúng ta thẳng tiến tới việc xây dựng một chiến lược thực sự.
Bất kỳ doanh nghiệp nào cũng có thể chia khách hàng thành 2 nhóm: chưa phải khách hàng và đã trở thành khách hàng.
Nhóm “chưa phải khách hàng” thường nằm trên CRM và rải trên 3 phân hệ: Marketing, Sales và Service.
Nhóm “đã trở thành khách hàng” quan trọng hơn nên nếu đầu tư phần mềm sẽ được đầu tư trước: Core banking của ngân hàng, Core Insurance của công ty Bảo hiểm, bệnh án điện tử của bệnh viện, eCommerce của công ty thương mại điện tử, POS, hệ thống bảo hành, khách hàng thân thiết…
Thông thường, theo quy trình bán, mỗi nhóm khách hàng lại được chia thành nhiều giai đoạn nhỏ hơn, và mỗi giai đoạn đó lại dùng một ứng dụng khác nhau. Vì vậy, nhu cầu kết nối dữ liệu giữa là hoàn toàn thuận theo tự nhiên, đem lại rất nhiều giá trị, và cũng là lý do có loạt bài này.
Về mặt kỹ thuật, có thể chia thành 2 xu hướng kết nối: Bền vững và Linh hoạt.
1. Xu hướng Bền vững có mục tiêu xây dựng “kho trung tâm” – Golden record of Data, hay System of Record, là nơi kết nối toàn bộ dữ liệu của tất cả các nguồn vào một nơi tập trung, dọn dẹp và làm đẹp đến mức dữ liệu trở thành mẫu mực và sẵn sàng phục vụ cho các mục đích khác.
Các công nghệ liên quan có thể kể đến:
– Datalake hay Data pool: dữ liệu được tập trung nhưng chưa được xử lý
– Data warehouse: dữ liệu được tập trung và sơ chế một phần
– MDM – Master Data management chính là dạng thức đỉnh cao, dữ liệu đạt đến tiệm cận của sự hoàn hảo
Quá trình xây dựng dữ liệu thông thường gồm các bước: tập hợp, lọc trùng, chuẩn hoá, thống nhất và sử dụng. Tuy tên khác nhau nhưng tất cả các bước đều có điểm chung là phức tạp ?
– Tập hợp: quá trình này có 3 bước cơ bản là ETL. Extract – xuất từ hệ thống cũ, Transform – chuyển đổi định dạng và Load- Nhập vào hệ thống mới. Do tính chất “Bền vững”, nên yếu tố thời gian thực thường không đặt nặng. Dữ liệu được đổ vào kho trung tâm theo tần suất xác định, phổ biến là hàng ngày – vào đêm khuya hoặc lúc hệ thống không bận rộn.
– Lọc trùng: quá trình này tưởng dễ mà khó muốn chết. Có 2 giai đoạn: lọc trùng dữ liệu trước khi đưa vào hệ thống, và lọc trùng dữ liệu mới với dữ liệu đã có trong hệ thống. Cái khó nằm ở chỗ định nghĩa như thế nào là “trùng” nó quá phức tạp. Một dữ liệu có nhiều trường thông tin: Trùng hết tất cả các trường chắc chắn là trùng nhưng trùng một phần cũng là trùng
Ví dụ:
(1) Nam Nguyễn- Thành phố HCM
(2) Nam Nguyễn – TP HCM
(3) Nguyễn Nam – Thành phố HCM
Cái nào là trùng cái nào?
Ở cấp cơ bản, hệ thống chỉ có thể định nghĩa trùng theo tiêu chí xác định: trùng tên và số điện thoại là trùng – tức là trùng 100%. Theo cơ chế này, cả 3 dữ liệu trên đều không trùng.
Nhưng ở cấp độ cao cấp, hệ thống có thể cho phép mã hoá thông tin các trường thành các dãy số và dùng một ngưỡng mờ (fuzzy), ví dụ là 80% để so trùng. Theo cơ chế này, cả 3 dữ liệu trên đều trùng.
Vậy phát hiện trùng xong thì phải làm gì? Bài toán này cũng thuộc dạng khó nhai hạng nhất và phương án giải quyết cũng chưa bao giờ làm người chơi không nhức nách.
Có thể là hình ảnh về văn bản cho biết 'SUPPLIERS PROJECT MANAGEMENT 1 PURCHASING MARKETING DESIGN ENGINEERING ACCOUNTS MANAGEMENT WAREHOUSING MASTER DATA HUMAN RESOURCES'

2 comments

  • Onie Lemke DDS

    Tháng Một 25, 2018 at 9:35 sáng

    Hy vọng tác giả cho ra thêm nhiều bài mới với các nội dung bổ ích

    Reply

  • Kiana Cremin I

    Tháng Một 25, 2018 at 9:35 sáng

    Phương pháp tư duy đã giúp tôi hiểu rõ hơn về các phương pháp xử lý dữ liệu

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *