Khi làm việc với bảng tính, tình trạng dữ liệu bị trùng lặp xuất hiện khá phổ biến. Có thể bạn đang quản lý danh sách khách hàng, theo dõi đơn hàng, hoặc xử lý dữ liệu từ nhiều nguồn khác nhau - vấn đề trùng lặp luôn tiềm ẩn. Việc để dữ liệu trùng tồn tại không chỉ làm phình to kích thước file mà còn ảnh hưởng đến độ chính xác khi phân tích, báo cáo.

TechCare.vn nhận thấy nhiều người dùng vẫn thực hiện thao tác kiểm tra thủ công từng dòng, gây lãng phí thời gian đáng kể. Thực tế, Google Sheets cung cấp đầy đủ công cụ để xử lý vấn đề này một cách hiệu quả. Bài viết này sẽ hướng dẫn cách lọc dữ liệu trùng trong Google Sheet, từ cơ bản đến nâng cao, giúp bạn làm chủ kỹ năng lọc dữ liệu trùng lặp.

Xem thêm 

Giới Thiệu Về Dữ Liệu Trùng Lặp

Dữ liệu trùng là gì?

Dữ liệu trùng lặp xảy ra khi hai hoặc nhiều bản ghi có thông tin giống hệt nhau hoặc tương đồng theo tiêu chí nhất định. Ví dụ: cùng một số điện thoại xuất hiện nhiều lần trong danh sách liên hệ, hoặc cùng mã sản phẩm được nhập trùng do sơ suất.

Tại sao cần lọc dữ liệu trùng?

Dữ liệu sạch là nền tảng cho mọi quyết định kinh doanh. Khi có dữ liệu trùng, báo cáo thống kê sẽ sai lệch, công thức tính toán cho kết quả không chính xác. Ngoài ra, việc lưu trữ thông tin dư thừa làm tăng dung lượng không cần thiết, ảnh hưởng đến hiệu suất xử lý.

Các dạng trùng lặp thường gặp

Trùng hoàn toàn: Toàn bộ dòng dữ liệu giống hệt nhau từng ô. Trường hợp này dễ phát hiện nhất.

Trùng một phần: Chỉ một số cột có giá trị giống nhau, ví dụ cùng email nhưng khác tên. Đây là dạng phức tạp hơn, cần xác định rõ tiêu chí nào được coi là trùng.

Trùng định dạng khác: Dữ liệu về mặt ý nghĩa giống nhau nhưng khác cách viết, như "0123456789" và "0123 456 789". Dạng này khó xử lý nhất vì cần chuẩn hóa trước.

Cách Lọc Dữ Liệu Trùng Bằng Hàm UNIQUE

Hàm UNIQUE là một công cụ mạnh mẽ trong Google Sheet, giúp loại bỏ các giá trị trùng lặp chỉ với vài thao tác đơn giản. Đây là phương pháp nhanh chóng và hiệu quả, đặc biệt khi làm việc với khối lượng dữ liệu lớn.

Các bước thực hiện:

  • Bước 1: Chọn một ô trống trong bảng tính, nơi bạn muốn hiển thị kết quả sau khi lọc.
  • Bước 2: Nhập công thức =UNIQUE(A2:B7), trong đó A2:B7 là phạm vi dữ liệu cần lọc. Phạm vi này có thể thay đổi tùy thuộc vào bảng dữ liệu của bạn. Ví dụ: Nếu bạn có bảng dữ liệu chứa danh sách tên và số điện thoại, công thức sẽ trả về danh sách các giá trị duy nhất.

Áp dụng hàm UNIQUE

  • Bước 3: Nhấn phím Enter để hiển thị kết quả. Google Sheet sẽ tự động trả về danh sách các giá trị không trùng lặp.

Nhấn phím Enter

Lưu ý:

  • Hàm UNIQUE hoạt động trên toàn bộ hàng hoặc cột được chọn, đảm bảo chỉ giữ lại các giá trị duy nhất.
  • Kết quả sẽ được cập nhật tự động nếu dữ liệu gốc thay đổi.

Tìm Kiếm và Đánh Dấu Dữ Liệu Trùng Lặp

Trong một số trường hợp, bạn không muốn xóa dữ liệu trùng lặp mà chỉ cần làm nổi bật chúng để dễ dàng kiểm tra. Google Sheet cung cấp tính năng Định dạng có điều kiện (Conditional Formatting) để hỗ trợ việc này.

Các bước thực hiện:

Bước 1: Chọn vùng dữ liệu cần kiểm tra (ví dụ: cột chứa họ tên và năm sinh từ A2:B7).

Bước 2: Vào thanh menu, chọn Định dạng > Định dạng có điều kiện.

Chọn Định dạng có điều kiện

Bước 3: Trong cửa sổ Quy tắc định dạng có điều kiện, thiết lập như sau:

  • Áp dụng cho phạm vi: Nhập vùng dữ liệu, ví dụ A2:B7.
  • Định dạng ô nếu: Chọn Công thức tùy chỉnh là.
  • Nhập công thức: =COUNTIF(A:A,A2)>1.

Giải thích: Hàm COUNTIF(A:A,A2) đếm số lần xuất hiện của giá trị trong ô A2 trong cột A. Nếu kết quả lớn hơn 1, ô đó chứa dữ liệu trùng lặp.

  • Chọn kiểu định dạng (ví dụ: tô màu đỏ) để làm nổi bật dữ liệu trùng.

Bước 4: Nhấn Đã xong để hoàn tất. Các ô chứa giá trị trùng lặp sẽ được đánh dấu theo định dạng bạn chọn.

Nhấn vào nút Đã xong

Ưu điểm:

  • Giúp dễ dàng nhận diện dữ liệu trùng mà không cần xóa bỏ.
  • Phù hợp khi bạn muốn kiểm tra dữ liệu trước khi xử lý.

Lọc Dữ Liệu Trùng và Không Trùng Bằng Hàm COUNTIF

Nếu bạn muốn phân loại dữ liệu thành hai nhóm: trùng lặp và không trùng lặp, hàm COUNTIF kết hợp với bộ lọc sẽ là lựa chọn lý tưởng.

Các bước thực hiện:

Bước 1: Tạo một cột phụ để kiểm tra dữ liệu trùng.

  • Chọn ô bên cạnh dữ liệu (ví dụ: ô C2).
  • Nhập công thức: =COUNTIF(A:A,A2)=1.

Nhấn phím Enter

Công thức này trả về giá trị TRUE nếu dữ liệu không trùng lặp và FALSE nếu dữ liệu trùng lặp.

  • Kéo chuột để sao chép công thức cho các ô còn lại trong cột.

Bước 2: Chèn một hàng trống phía trên cùng của bảng tính:

  • Nhấn chuột phải vào hàng đầu tiên, chọn Chèn 1 hàng lên trên.

Hàng mới sẽ được chèn vào

Bước 3: Tạo bộ lọc:

  • Chọn ô đầu tiên của cột phụ (ví dụ: C1).
  • Vào menu Dữ liệu > Tạo bộ lọc.

Chọn vào tính năng Tạo bộ lọc

Bước 4: Lọc dữ liệu:

  • Nhấn vào biểu tượng bộ lọc ở ô C1.
  • Bỏ chọn FALSE để chỉ hiển thị các giá trị TRUE (dữ liệu không trùng lặp).
  • Nhấn OK để hoàn tất.

Chọn vào tính năng Tạo bộ lọc

Kết quả:

  • Bạn sẽ nhận được danh sách các giá trị không trùng lặp.
  • Nếu muốn xem dữ liệu trùng lặp, bạn có thể bỏ chọn TRUE và giữ FALSE trong bộ lọc.

Kinh Nghiệm Và Mẹo Thực Tế

Sao lưu trước khi xử lý

Luôn tạo bản sao sheet trước khi thực hiện bất kỳ thao tác xóa nào. Sử dụng phím tắt Ctrl+D để duplicate sheet nhanh chóng. Nếu có sai sót, bạn còn dữ liệu gốc để khôi phục.

Xác định rõ tiêu chí trùng lặp

Không phải lúc nào cũng cần xóa toàn bộ dòng trùng hoàn toàn. Ví dụ với danh sách khách hàng, hai bản ghi có cùng email nhưng khác tên có thể là hai người khác nhau dùng chung email. Hãy xác định cột nào là định danh duy nhất (mã khách hàng, số điện thoại) rồi chỉ áp dụng lọc trùng trên cột đó.

Xử lý dữ liệu lớn

Với sheet có hàng chục nghìn dòng, việc tính toán bằng công thức có thể làm chậm file. Trong trường hợp này, sao chép dữ liệu sang sheet mới, áp dụng Remove Duplicates một lần, sau đó làm việc trên sheet đã lọc. Hoặc sử dụng Apps Script để xử lý nhanh hơn.

Lưu Ý Khi Lọc Dữ Liệu Trùng Trong Google Sheet

  • Kiểm tra định dạng dữ liệu: Đảm bảo dữ liệu không chứa khoảng trắng hoặc ký tự ẩn, vì chúng có thể khiến Google Sheet nhận diện sai giá trị trùng lặp.
  • Sao lưu dữ liệu: Trước khi lọc hoặc xóa dữ liệu trùng, hãy tạo bản sao bảng tính để tránh mất dữ liệu quan trọng.
  • Sử dụng đúng phạm vi: Khi áp dụng hàm UNIQUE hoặc COUNTIF, hãy kiểm tra kỹ phạm vi dữ liệu để tránh sai sót.
  • Tối ưu hóa hiệu suất: Với bảng tính lớn, hãy sử dụng các hàm và bộ lọc một cách hợp lý để tránh làm chậm hiệu suất.

Lọc dữ liệu trùng trong Google Sheets không phải là thao tác khó, nhưng cần thực hiện đúng phương pháp để đảm bảo hiệu quả và an toàn cho dữ liệu. TechCare.vn đã trình bày đầy đủ năm phương pháp chính, từ công cụ sẵn có đơn giản đến giải pháp lập trình nâng cao. Mỗi cách có ưu nhược điểm riêng, phù hợp với từng tình huống cụ thể.

Dữ liệu sạch là nền tảng cho mọi phân tích và quyết định. Bằng cách áp dụng đúng kỹ thuật lọc trùng, bạn không chỉ tiết kiệm thời gian mà còn nâng cao độ chính xác trong công việc. Hy vọng hướng dẫn chi tiết này từ TechCare.vn sẽ giúp bạn xử lý dữ liệu trùng lặp một cách chuyên nghiệp và hiệu quả.