Một phương pháp để phát hiện lỗi sản xuất tiên tiến thông qua học tập tự giám sát trên hình ảnh X-quang

10/04/2024 08:21 234

Nội dung bài viết

Một phương pháp để phát hiện lỗi sản xuất tiên tiến thông qua học tập tự giám sát trên hình ảnh X-quang

Tóm lược

Trong kiểm soát chất lượng công nghiệp, đặc biệt là trong lĩnh vực phát hiện lỗi sản xuất, học sâu đóng vai trò ngày càng quan trọng. Tuy nhiên, hiệu quả của các mô hình tiên tiến này thường bị cản trở bởi nhu cầu về các bộ dữ liệu có chú thích quy mô lớn. Hơn nữa, các bộ dữ liệu này chủ yếu dựa trên hình ảnh RGB, rất khác với hình ảnh tia X. Giải quyết hạn chế này, nghiên cứu của chúng tôi đề xuất một phương pháp kết hợp các kỹ thuật tiền đào tạo tự giám sát theo miền cụ thể bằng cách sử dụng hình ảnh tia X để cải thiện khả năng phát hiện khuyết tật trong sản xuất sản phẩm. Chúng tôi sử dụng hai phương pháp tiền đào tạo, SimSiam và SimMIM, để tinh chỉnh trích xuất tính năng từ hình ảnh sản xuất. Giai đoạn tiền đào tạo được thực hiện bằng cách sử dụng bộ dữ liệu công nghiệp gồm 27.901 hình ảnh X-quang không được dán nhãn từ dây chuyền sản xuất. Chúng tôi phân tích hiệu suất của pretraining so với các phương pháp dựa trên chuyển giao học tập trong một kịch bản phát hiện lỗi phức tạp bằng cách sử dụng mô hình R-CNN nhanh hơn. Chúng tôi tiến hành đánh giá trên cả bộ dữ liệu công nghiệp độc quyền và bộ dữ liệu GDXray có sẵn công khai. Các phát hiện cho thấy các mô hình được đào tạo trước với hình ảnh X-quang miền cụ thể luôn hoạt động tốt hơn các mô hình được khởi tạo với trọng số ImageNet. Đáng chú ý, các mô hình Swin Transformer cho thấy kết quả vượt trội trong các kịch bản giàu dữ liệu được gắn nhãn, trong khi xương sống CNN hiệu quả hơn trong môi trường dữ liệu hạn chế. Hơn nữa, chúng tôi nhấn mạnh khả năng nâng cao của các mô hình được đào tạo trước bằng hình ảnh tia X trong việc phát hiện các khuyết tật nghiêm trọng, rất quan trọng để đảm bảo an toàn trong môi trường công nghiệp. Nghiên cứu của chúng tôi cung cấp bằng chứng đáng kể về lợi ích của việc học tự giám sát trong phát hiện lỗi sản xuất, cung cấp nền tảng vững chắc cho nghiên cứu sâu hơn và ứng dụng thực tế trong kiểm soát chất lượng công nghiệp.

Từ khóa:

phát hiện lỗi; sản xuất; kiểm soát chất lượng quang học; học sâu; Học tập tự giám sát

1. Giới thiệu

Trong những năm qua, nghiên cứu sâu rộng đã được tiến hành để tăng cường kiểm tra trực quan các sản phẩm sản xuất bằng hình ảnh X-quang. Trọng tâm chính là phát triển các quy trình tự động có khả năng xác định các sản phẩm bị lỗi. Trên thực tế, phân tích thủ công từng phần không chỉ là một nhiệm vụ lặp đi lặp lại và mệt mỏi đối với người vận hành, mà độ chính xác của chúng cũng có thể có xu hướng giảm theo thời gian [1]. Ngược lại, các phương pháp tiếp cận dựa trên dữ liệu không chỉ đảm bảo hiệu suất đồng đều trong thời gian dài mà còn giảm thiểu hiệu quả rủi ro lỗi của con người. Do đó, chúng có thể hỗ trợ đáng kể trong quá trình ra quyết định của người vận hành.

Những tiến bộ gần đây trong các phương pháp tiếp cận dựa trên học sâu đã nổi lên như là giải pháp hàng đầu cho nhiều nhiệm vụ trên nhiều lĩnh vực [2]. Cụ thể trong bối cảnh phát hiện lỗi sản xuất, các kỹ thuật này hiện được coi là hiện đại, vượt trội hơn đáng kể so với các phương pháp truyền thống [3,4,5]. Tuy nhiên, hiệu suất của chúng được điều chỉnh bởi một điều kiện quan trọng: bản chất đói dữ liệu của chúng. Những cách tiếp cận này yêu cầu bộ dữ liệu mở rộng của hình ảnh được gắn nhãn trong quá trình đào tạo để tìm hiểu các biểu diễn trực quan hiệu quả. Do đó, hiệu quả của chúng có thể giảm đáng kể khi chỉ có một số lượng hình ảnh hạn chế, làm nổi bật một thách thức quan trọng trong ứng dụng của chúng. Thách thức này thậm chí còn trở nên đáng chú ý hơn trong việc phát hiện lỗi vì việc thu thập các bộ dữ liệu rộng rãi, được dán nhãn chính xác tỏ ra đặc biệt khó khăn trong môi trường công nghiệp.

Một giải pháp tiềm năng để giảm thiểu các yêu cầu dữ liệu là áp dụng học tập chuyển giao. Cách tiếp cận này về cơ bản liên quan đến việc tận dụng kiến thức thu được từ các vấn đề được xác định rộng rãi và áp dụng nó vào các nhiệm vụ cụ thể hơn, được nhắm mục tiêu. Đối với các mô hình thị giác, đào tạo trước trên các bộ dữ liệu mở rộng như ImageNet [6] giúp tăng cường khả năng của chúng cho các nhiệm vụ xuôi dòng khác nhau. Tuy nhiên, mặc dù hiệu quả đã được chứng minh của các mô hình này trong việc phát hiện lỗi sản xuất, hiệu suất có thể bị ảnh hưởng bởi (1) sự chênh lệch giữa hình ảnh ImageNet và hình ảnh X-quang và (2) sự thiên vị tiềm ẩn của các mô hình này đối với các danh mục cụ thể có trong tập dữ liệu.

Tuy nhiên, nhu cầu về một bộ dữ liệu được gắn nhãn trong các phương pháp pretraining này thường gây ra một nút cổ chai trong việc phát triển các mô hình học sâu. Học tập tự giám sát nổi lên như một giải pháp, cho phép trích xuất các tính năng quan trọng từ hình ảnh mà không cần dựa vào dữ liệu được dán nhãn và do đó sử dụng hiệu quả khối lượng lớn dữ liệu có sẵn. Trong bối cảnh phát hiện lỗi sản xuất, các phương pháp tự giám sát cho phép sử dụng các bộ dữ liệu lớn về hình ảnh X-quang không được dán nhãn, phổ biến trong các cơ sở công nghiệp. Điều này tạo điều kiện cho việc đào tạo một mô hình lão luyện trong việc hiểu các biểu diễn hình ảnh tia X và đáng tin cậy trong việc trích xuất các tính năng phù hợp nhất. Sau đó, mô hình trở thành xương sống phù hợp cho các nhiệm vụ xuôi dòng liên quan đến bộ dữ liệu tia X được dán nhãn, tăng cường khả năng ứng dụng và hiệu quả của nó trong việc xác định lỗi chính xác.

Đóng góp chính của công việc này là giới thiệu một phương pháp mới để phát hiện khuyết tật trong các bộ phận sản xuất, nơi chúng tôi sử dụng các phương pháp tiền đào tạo chuyên biệt trên hình ảnh tia X để phát triển các mô hình có khả năng trích xuất tính năng nâng cao. Bằng cách thực hiện giai đoạn tiền đào tạo với hình ảnh từ lĩnh vực sản xuất cụ thể, các mô hình của chúng tôi phát triển thành các trình trích xuất tính năng rất lão luyện, cho thấy sự cải thiện đáng kể trong việc xác định các tính năng liên quan đến nhiệm vụ so với các mô hình được khởi tạo bằng trọng số ImageNet. Phương pháp này được xác nhận bởi hiệu suất mạnh mẽ của các mô hình này trong các nhiệm vụ phát hiện lỗi trong bối cảnh sản xuất, như được thấy thông qua các đánh giá cả trên bộ dữ liệu điểm chuẩn công khai và trong môi trường công nghiệp trong thế giới thực. Việc xác nhận như vậy nhấn mạnh hiệu quả thực tế và tầm quan trọng của phương pháp tiếp cận của chúng tôi trong các tình huống mà việc xác định lỗi chính xác là rất quan trọng. Thông qua công việc này, chúng tôi đóng góp vào lĩnh vực phát hiện lỗi sản xuất bằng cách giới thiệu cách đào tạo chuyên dụng có thể trích xuất hiệu quả các tính năng liên quan từ hình ảnh X-quang, do đó cung cấp những hiểu biết mới về việc áp dụng công nghệ này trong môi trường công nghiệp.

2. Công việc liên quan

2.1. Phát hiện lỗi sản xuất

Nhiều nỗ lực đã được thực hiện trong những năm qua để tự động hóa nhiệm vụ phát hiện khuyết tật trong sản xuất bằng phương pháp thị giác máy tính. Hiện nay, phát hiện lỗi sản xuất là một vấn đề được thiết lập tốt trong lĩnh vực thị giác máy tính và đã được áp dụng rộng rãi trong nhiều quy trình kiểm soát chất lượng công nghiệp [7,8,9]. Những nỗ lực ban đầu trong phát hiện khuyết tật đã sử dụng so sánh hình ảnh [10] và Biến đổi Fourier [11] để xác định các khiếm khuyết, tiếp theo là các kỹ thuật thống kê để trích xuất tính năng [8,12]. Các tính năng này sau đó được phân loại bằng cách sử dụng máy học để phân biệt giữa các mặt hàng bị lỗi và không bị lỗi. Tuy nhiên, việc trích xuất tính năng thủ công này là sản phẩm cụ thể và không được áp dụng phổ biến, hạn chế khả năng chuyển giao kiến thức đã học.

Sự xuất hiện của các phương pháp tiếp cận dựa trên học sâu đã cải thiện độ chính xác trong kiểm soát chất lượng sản xuất [3,4,5,13,14,15]. Cấu trúc phức tạp của chúng có thể giữ lại và tự động tìm hiểu thông tin chứa trong ảnh, tạo điều kiện thuận lợi hơn cho việc xử lý hình ảnh so với các kỹ thuật trước đây. Các mô hình dựa trên học sâu được xây dựng theo cách từ đầu đến cuối nên các quy trình thủ công không bắt buộc phải trích xuất các tính năng phân biệt đối xử [3,16]. Trên thực tế, quá trình trích xuất tính năng được thực hiện tự động từ hình ảnh thô, tiếp theo là một đầu phân loại tìm hiểu ranh giới giữa các tính năng bị lỗi và không bị lỗi.

Trong những năm gần đây, nhiều nghiên cứu đã sử dụng Mạng nơ-ron tích chập sâu (CNN) để phân loại cấp độ hình ảnh, phân biệt hiệu quả giữa hình ảnh sản xuất bị lỗi và không bị lỗi [1,8]. Các công trình này tập trung vào việc tinh chỉnh quy trình trích xuất tính năng, coi nó rất quan trọng để phát triển một máy dò khuyết tật hiệu quả. Kuo et al. [1] đã so sánh các xương sống trích xuất tính năng khác nhau trên hình ảnh bề mặt với các khuyết tật phun cát. Ngoài ra, Wang et al. [17] đã sử dụng mô-đun tự chú ý để trích xuất và phân loại các tính năng từ các khuyết tật nhỏ.

Tuy nhiên, mục đích của việc phát hiện lỗi không chỉ là phân loại sản phẩm ở cấp độ hình ảnh mà còn xác định vị trí các khuyết tật trong toàn bộ hình ảnh khi sản phẩm bị lỗi. Do đó, nghiên cứu đã chuyển sang ứng dụng các mô hình phát hiện đối tượng để kết hợp thông tin vị trí [3,13,14,15,18]. Ferguson et al. [3] đã áp dụng Faster R-CNN [19] cho bộ dữ liệu điểm chuẩn GDXray [20], thu được kết quả khả quan. Ngay sau đó, họ đã cải thiện kết quả của mình bằng cách áp dụng Masked R-CNN [4] được đào tạo trước trên bộ dữ liệu COCO [21]. Du et al. [13] đã đề xuất một số cải tiến cho R-CNN nhanh hơn để phát hiện lỗi trong các sản phẩm sản xuất ô tô, bao gồm Mạng kim tự tháp tính năng [22] (FPN), RoIAlign [23] và các kỹ thuật tăng cường dữ liệu. Hơn nữa, Wang et al. [17] là những người đầu tiên tích hợp các cơ chế tự chú ý với CNN, tăng cường phát hiện lỗi hình ảnh bằng cách trích xuất các tính năng tinh tế từ các tính năng chung.

Thách thức chính đối với các phương pháp tiếp cận dựa trên deep learning là sự phụ thuộc của họ vào một khối lượng lớn hình ảnh để đạt được hiệu suất đáng tin cậy [24]. Thật vậy, áp dụng học tập chuyển giao với các mô hình được đào tạo trước cung cấp một bước ban đầu phù hợp [4]. Tuy nhiên, có một sự khác biệt đáng chú ý giữa hình ảnh X-quang và những hình ảnh thường được sử dụng trong đào tạo trước ImageNet; Hình ảnh tia X có thang độ xám và mô tả các bộ phận sản xuất cụ thể, tương phản với hình ảnh RGB của các vật thể và cảnh hàng ngày khác nhau từ ImageNet. Sự khác biệt này dẫn đến một sự thay đổi tên miền đáng kể.

Mặc dù đã có những tiến bộ đáng kể trong việc áp dụng nội địa hóa khuyết tật để phát hiện lỗi sản xuất, một lỗ hổng đáng chú ý tồn tại trong việc sử dụng học tập tự giám sát trên hình ảnh sản xuất tia X. Theo hiểu biết tốt nhất của chúng tôi, cách tiếp cận cụ thể này vẫn chưa được khám phá, đại diện cho một hướng đi đầy hứa hẹn để nâng cao độ chính xác và hiệu quả của việc phát hiện khuyết tật trong các cơ sở công nghiệp. Chúng tôi đưa ra giả thuyết rằng học tập tự giám sát, được áp dụng đặc biệt để sản xuất hình ảnh X-quang, có thể là một chiến lược hiệu quả để khắc phục sự phụ thuộc vào các bộ dữ liệu lớn, được dán nhãn trong học sâu. Bằng cách áp dụng phương pháp này để đào tạo trước, mục tiêu của chúng tôi là trích xuất và tinh chỉnh các tính năng tiêu biểu nhất nội tại cho miền cụ thể này, sau đó có thể nâng cao hiệu suất của các tác vụ phát hiện lỗi xuôi dòng. Do đó, sự tiến bộ này sẽ làm tăng hiệu quả và độ tin cậy của việc phát hiện khuyết tật trong các ứng dụng công nghiệp trong thế giới thực.

2.2. Học tự giám sát

Như đã đề cập, người ta thừa nhận rộng rãi rằng các thuật toán học sâu hiện tại đòi hỏi các bộ dữ liệu đào tạo quy mô lớn để tìm hiểu các biểu diễn dữ liệu nội tại và đạt được khả năng khái quát hóa thỏa đáng. Trong học tập có giám sát, dữ liệu được gắn nhãn là bắt buộc trong quá trình đào tạo, vì vậy các bộ dữ liệu lớn phải được chú thích. Đây có thể được xem là một nút thắt cổ chai vì quá trình ghi nhãn tốn thời gian và tốn kém, cũng như không khả thi trong một số lĩnh vực. Hơn nữa, các mô hình được đào tạo theo cách có giám sát phụ thuộc rất nhiều vào các nhãn được chú thích thủ công.

Hiện nay, học tự giám sát là một giải pháp thay thế phổ biến để học các biểu diễn trực quan của hình ảnh mà không có dữ liệu chú thích. Nó tận dụng số lượng lớn dữ liệu không được gắn nhãn có sẵn để đào tạo một mô hình giải quyết các nhiệm vụ lý do khác nhau. Trong quá trình này, mô hình tìm hiểu các tính năng hình ảnh vốn có có thể được sử dụng cho một số mục đích cuối cùng [25]. Như được đề xuất trong cuộc khảo sát của Liu et al. [26], các phương pháp học tập tự giám sát có thể được tóm tắt là dựa trên thế hệ [27], dựa trên tương phản [28,29] hoặc dựa trên GAN [30]. Cuộc khảo sát cho thấy các phương pháp tiếp cận dựa trên GAN và tạo ra kém hiệu quả trong các nhiệm vụ phân loại so với các phương pháp dựa trên tương phản. Do đó, vì phát hiện khuyết tật có thể được coi là một vấn đề phân loại cụ thể, phân tích của chúng tôi tập trung vào các kỹ thuật dựa trên tương phản tự giám sát.

Ý tưởng chính của cách tiếp cận tương phản là xây dựng một vấn đề phân biệt đối xử đơn giản dựa trên một nhiệm vụ lấy cớ giúp mô hình tìm hiểu các tính năng đại diện từ hình ảnh. Nhiệm vụ lấy cớ nhóm các hình ảnh thành các nhóm khác nhau với giả định rằng các hình ảnh từ cùng một nhóm giống nhau về mặt ngữ nghĩa trong khi hình ảnh từ các nhóm khác nhau thì không [25]. Theo đó, học tập tương phản cố gắng giảm thiểu khoảng cách giữa các đặc điểm hình ảnh từ cùng một nhóm (được gọi là cặp dương), do đó làm giảm sự tương đồng trong lớp và tối đa hóa khoảng cách giữa các đặc điểm hình ảnh từ các nhóm khác nhau (cặp âm), tăng sự tương đồng giữa các lớp.

Cố gắng xác định nhiệm vụ lấy cớ, Wu et al. [31] đã giới thiệu phân biệt đối xử phiên bản với ngân hàng bộ nhớ để đào tạo hiệu quả, nhấn mạnh tầm quan trọng của một số lượng lớn các mẫu âm tính để cải thiện hiệu suất. Khái niệm này đã được tinh chỉnh thêm bởi He et al. [28], người đã sử dụng bộ mã hóa động lượng và tăng cường dữ liệu để tạo ra các cặp dương từ cùng một hình ảnh. Chen et al. [29] đề xuất SimCLR, loại bỏ sự cần thiết của ngân hàng bộ nhớ và sử dụng các mẫu âm tính hàng loạt hiện tại để tính toán tổn thất tương phản, mặc dù yêu cầu kích thước lô lớn để có chất lượng biểu diễn tốt hơn. Các nghiên cứu tiếp theo tập trung vào tác động của âm bản cứng và cân bằng kích thước lô [32,33]. Grill et al. [34] đã giải quyết vấn đề kích thước lô lớn bằng cách chỉ dựa vào các cặp dương và tăng cường bộ mã hóa động lượng, mang lại sự mạnh mẽ trong các tình huống lô nhỏ hơn. Tuy nhiên, mô hình SimSiam của Chen et al. [35] đại diện cho một bước nhảy vọt với kiến trúc đơn giản hơn và tính năng stop-gradient độc đáo, hoạt động hiệu quả mà không cần mẫu âm, lô lớn hoặc bộ mã hóa động lượng.

Trong lĩnh vực học tập tự giám sát, một sự tiến hóa đáng kể đã được quan sát thấy với việc tích hợp Transformers vào thị giác máy tính, thoát khỏi sự phụ thuộc truyền thống vào các phương pháp tiếp cận dựa trên CNN [36]. Các mô hình này, nổi tiếng với khả năng nắm bắt các phụ thuộc quan hệ phức tạp trong chuỗi hình ảnh, đã cho thấy khả năng mở rộng đáng kể trong việc xử lý các mạng và bộ dữ liệu quy mô lớn [37]. Sự tiến bộ này đã dẫn đến sự phát triển của các kiến trúc tự chú ý phân cấp tập trung vào việc trích xuất các tính năng đa độ phân giải cần thiết cho các ứng dụng chi tiết như phát hiện lỗi [38,39,40].

Quá trình chuyển đổi sang Transformers trong tầm nhìn này phù hợp liền mạch với những tiến bộ rộng lớn hơn trong học tập tự giám sát. Vision Transformers, song song với các kỹ thuật NLP như mặt nạ mã thông báo của BERT [41], áp dụng các chiến lược tiền đào tạo tương tự. Bằng cách che các phần của hình ảnh và tái tạo chúng, phương pháp này cho phép học từ các bộ dữ liệu lớn, không được gắn nhãn, giảm sự phụ thuộc vào dữ liệu được chú thích [42]. Điều này phản ánh sự tiến bộ thống nhất trong việc khai thác dữ liệu không được gắn nhãn cho các tác vụ trực quan phức tạp, nhấn mạnh tầm quan trọng của các biểu diễn trực quan mạnh mẽ [43].

3. Vật liệu và phương pháp

Phần này cung cấp tổng quan chi tiết về phương pháp chúng tôi đã sử dụng để đạt được mục tiêu chính của mình: cải thiện hiệu suất phát hiện khuyết tật trong môi trường công nghiệp trong thế giới thực bằng cách sử dụng giai đoạn tiền đào tạo. Chúng tôi trình bày chi tiết và so sánh hai kỹ thuật tự giám sát được sử dụng trong phương pháp của chúng tôi, nhấn mạnh cách mỗi kỹ thuật góp phần tăng cường việc học các biểu diễn trực quan. Ngoài ra, chúng tôi thảo luận về tác động tiềm năng của chúng trong việc cải thiện nhận dạng khuyết tật trong các cơ sở công nghiệp.

3.1. Phương pháp luận của chúng tôi

Phương pháp của chúng tôi tập trung vào việc áp dụng các kỹ thuật học tập tự giám sát để xây dựng các máy dò khuyết tật cho sản xuất với mục tiêu nâng cao hiện trạng hiện đại trong phát hiện lỗi sản xuất. Nó nổi bật so với các phương pháp trước đây trong phát hiện lỗi sản xuất bằng cách khai thác các bộ dữ liệu lớn về hình ảnh X-quang không được dán nhãn, thường được tìm thấy trong các cơ sở công nghiệp, để đào tạo các máy dò khuyết tật theo cách tự giám sát.

Giai đoạn tiền đào tạo của phương pháp luận của chúng tôi liên quan đến việc phát triển các mô hình có khả năng tự động học và trích xuất các tính năng hình ảnh quan trọng từ hình ảnh X-quang, độc lập với dữ liệu được chú thích. Trong giai đoạn này, các mô hình được đào tạo theo cách tự giám sát trên bộ dữ liệu không được dán nhãn của hình ảnh sản xuất tia X. Trong các phần tiếp theo của bài viết này, chúng tôi trình bày chi tiết toàn diện hai kỹ thuật học tập tự giám sát riêng biệt. Những phương pháp này đã được lựa chọn đặc biệt vì hiệu quả đã được chứng minh và hiệu suất vượt trội trong các nhiệm vụ tiền đào tạo trước đó. Kết quả của khóa đào tạo, chúng tôi tận dụng các đặc điểm và mẫu vốn có trong những hình ảnh này, do đó cho phép các mô hình xác định các dị thường tinh tế nhưng quan trọng báo hiệu các khiếm khuyết. Ngoài ra, giai đoạn tiền đào tạo này không bị gánh nặng với chi phí thu thập dữ liệu cao. Chi phí đáng kể trong việc chuẩn bị dữ liệu thường phát sinh từ nhu cầu chú thích hình ảnh chính xác hơn là thu thập dữ liệu thô. Theo cách tiếp cận của chúng tôi, hình ảnh thô có thể được thu thập hiệu quả thông qua máy ảnh X-quang được tích hợp vào dây chuyền sản xuất, cho phép mua lại một bộ sản phẩm được sản xuất toàn diện.

Sau khi đào tạo trước khi tự giám sát, mô hình đóng vai trò như một bộ trích xuất tính năng tinh chỉnh cho các nhiệm vụ hạ nguồn cụ thể, đặc biệt là để phát hiện lỗi trong sản xuất. Cách tiếp cận này tận dụng tối đa khả năng cải thiện của mô hình để hiểu và giải thích các đặc điểm của hình ảnh X-quang. Sau đó, phù hợp với các phương pháp đã được thiết lập trong tài liệu [3,4,13], chúng tôi tích hợp trình trích xuất tính năng vào khung phát hiện đối tượng. Mô hình trải qua quá trình tinh chỉnh trên tập dữ liệu đích được chú thích cẩn thận, trong đó các khiếm khuyết được mô tả bằng cách sử dụng các hộp giới hạn hoặc chú thích pixel-wise, phân biệt rõ ràng chúng với nền hình ảnh. Trọng tâm trong giai đoạn tinh chỉnh này là đào tạo máy dò để định vị chính xác và xác định các đặc điểm khuyết tật trong toàn bộ hình ảnh, nâng cao độ chính xác của việc phát hiện khuyết tật. Khác với các phương pháp truyền thống bắt đầu tinh chỉnh với trọng số ImageNet, phương pháp của chúng tôi sử dụng các tính năng thích hợp để sản xuất hình ảnh, bắt nguồn từ quá trình đào tạo trước tự giám sát. Cách tiếp cận này có khả năng cho phép mô hình đồng hóa các tính năng khuyết tật cục bộ hiệu quả hơn vì nó tích hợp các biểu diễn trực quan đã học với các cơ chế phát hiện lỗi truyền thống, tận dụng các đại diện toàn cầu của các sản phẩm sản xuất có được trong giai đoạn tiền đào tạo. Do đó, hệ thống phát hiện khuyết tật cuối cùng dự kiến sẽ mạnh mẽ và đáng tin cậy hơn trong việc phát hiện lỗi, mang lại sự cải tiến đáng kể so với các phương pháp truyền thống.

Hình 1 cho thấy tổng quan về phương pháp luận, bao gồm hai giai đoạn chính: tiền đào tạo và tinh chỉnh. Trong giai đoạn tiền đào tạo, xương sống của mô hình được đào tạo thông qua phương pháp học tập tự giám sát. Khóa đào tạo này trang bị cho mô hình khả năng trích xuất cụ thể các tính năng từ hình ảnh sản xuất tia X. Sau đó, xương sống được đào tạo được điều chỉnh thành một khung phát hiện đối tượng. Tại đây, nó trải qua một quá trình tinh chỉnh với bộ dữ liệu mục tiêu được chú thích, giúp tinh chỉnh thêm khả năng phát hiện lỗi của nó để sản xuất hình ảnh. Để đánh giá hiệu quả của phương pháp luận của chúng tôi, chúng tôi đã chọn hai phương pháp học tập tự giám sát: SimSiam [29] và SimMIM [44]. Mô tả chi tiết về các kỹ thuật này được cung cấp trong các tiểu mục sau.

Hình 1. Tổng quan về phương pháp: Quá trình này bao gồm hai giai đoạn, pretraining và fine-tunening. Ban đầu, chúng tôi sử dụng các kỹ thuật học tập tự giám sát SimSiam và SimMIM để đào tạo xương sống chung trên khối lượng lớn hình ảnh X-quang không được dán nhãn. Giai đoạn ban đầu này giúp mô hình nắm bắt các tính năng hình ảnh quan trọng liên quan đến lỗi sản xuất, loại bỏ nhu cầu chú thích dữ liệu. Sau đó, xương sống được đào tạo trước được tích hợp vào khung phát hiện đối tượng, nơi nó trải qua quá trình tinh chỉnh với tập dữ liệu mục tiêu được chú thích. Giai đoạn suy luận cuối cùng áp dụng mô hình tinh chỉnh để phát hiện chính xác các khiếm khuyết trong sản xuất hình ảnh, sử dụng các tính năng mạnh mẽ đã học được trong các giai đoạn trước để cải thiện độ chính xác và độ tin cậy.

3.2. SimSiam

Chúng tôi đã sử dụng SimSiam [29] để đào tạo trước một trình trích xuất tính năng được điều chỉnh đặc biệt để phân biệt giữa các tính năng có liên quan từ hình ảnh sản xuất. SimSiam được chọn vì sự đánh đổi tối ưu giữa sự đơn giản và hiệu quả trong các nhiệm vụ phân loại hình ảnh. Ưu điểm của nó nằm ở việc không yêu cầu kích thước lô lớn hoặc bộ mã hóa động lượng để đào tạo, giúp việc đào tạo trên nhiều GPU trở nên khả thi mà không đòi hỏi nguồn lực đáng kể.

SimSiam là một phương pháp học tập tương phản sử dụng kiến trúc dựa trên mạng Xiêm. Phương pháp này đào tạo mô hình để tối đa hóa sự thỏa thuận giữa các chế độ xem tăng cường khác nhau của cùng một dữ liệu bằng cách sử dụng tổn thất tương phản trong không gian tiềm ẩn. Nó tạo ra hai lần tăng cường ngẫu nhiên,

x_{1}

và

x_{2}

, từ một hình ảnh X sau đó được xử lý bởi một mạng mã hóa f. Bộ mã hóa f này, bao gồm một xương sống như ResNet50 [45] và đầu perceptron đa lớp chiếu (MLP), chia sẻ trọng lượng của nó trên các chế độ xem để trích xuất tính năng nhất quán. Ngoài ra, một MLP riêng biệt, ký hiệu là h, đóng vai trò là đầu dự đoán, chuyển đổi đầu ra của một chế độ xem để phù hợp với chế độ xem khác. Theo ký hiệu của bài báo gốc, các vectơ biến đổi và ban đầu được biểu diễn dưới dạng

p_{1} ≜ h (f (x_{1}))

và

z_{2} ≜ f (x_{2})

Tương ứng. Theo cách đối xứng, mô hình cũng xử lý các phần tăng trưởng nghịch đảo, tạo ra

z_{1} ≜ f (x_{1})

và

p_{2} ≜ h (f (x_{2}))

. Sự đối xứng này trong chức năng mất mát giúp tăng cường đáng kể sự mạnh mẽ và hiệu quả học tập của mô hình. Mục tiêu cốt lõi của SimSiam là giảm thiểu sự tương đồng cosin tiêu cực giữa các cặp (

p_{1}

và

z_{2}

và

p_{2}

và

z_{1}

), do đó sắp xếp các biểu diễn này mặc dù các biến thể do tăng cường của chúng.

𝒟 (𝑝 1, 𝑧 2) = 𝒟 (𝑝 2, 𝑧 1) = - 𝑝 1 ∥ 𝑝 1 ∥ 2 \cdot 𝑧 2 ∥ 𝑧 2 ∥ 2 - 𝑝 2 ∥ 𝑝 2 ∥ 2 \cdot 𝑧 1 ∥ 𝑧 1 ∥ 2

(1)

đâu $∥ p_{1} ∥_{2}$ và $∥ p_{2} ∥_{2}$ là các chỉ tiêu L2 của $p_{1}$ và $p_{2}$ Tương ứng. Một yếu tố quan trọng của phương pháp SimSiam là hoạt động stop-gradient, đây là chìa khóa để ngăn chặn một giải pháp sụp đổ trong đó tất cả các đầu ra hội tụ vào cùng một vector. Thao tác này được áp dụng cho đầu ra của bộ mã hóa f, coi nó là hằng số trong một phần của khóa đào tạo. Kỹ thuật này giúp duy trì sự đa dạng trong các tính năng đã học, đảm bảo rằng mô hình không giảm thiểu tổn thất một cách tầm thường bằng cách hội tụ đến một đầu ra không đổi, như minh họa trong Hình 2. Dạng cuối cùng của hàm tổn thất được định nghĩa như sau:

ℒ = 1 2 𝒟 (𝑝 1, s t o p g r a d (𝑧 2)) + 1 2 𝒟 (𝑝 2, s t o p g r a d (𝑧 1))

(2)

Hình 2. Tổng quan về kiến trúc SimSiam [29]. Từ hình ảnh gốc, hai phiên bản tăng cường được xử lý bởi mạng Xiêm để trích xuất và căn chỉnh các tính năng, sử dụng hoạt động dốc dừng để ngăn chặn các giải pháp sụp đổ. Chiến lược này giảm thiểu sự tương đồng cosin tiêu cực, tăng cường nhận dạng tính năng nhất quán giữa các biến thể với học tập tương phản hiệu quả.

Mục tiêu là để mô hình tìm hiểu các biểu diễn bất biến đối với các phần tăng cường, đảm bảo mô hình mang lại kết quả đầu ra nhất quán cho các chế độ xem khác nhau của cùng một hình ảnh. Điều này đòi hỏi phải lựa chọn cẩn thận các phần bổ sung đủ bất biến để bỏ qua các biến thể tầm thường, nhưng không quá mức, vì vậy thông tin quan trọng cho các nhiệm vụ hạ nguồn không bị loại bỏ [46]. Đạt được sự cân bằng này cho phép mô hình xác định và làm nổi bật các tính năng có liên quan một cách hiệu quả. Trong bài báo gốc, các tác giả đã sử dụng một loạt các tăng cường, bao gồm hình học (chẳng hạn như cắt hình ảnh lên đến 20% và lật ngang), sửa đổi màu sắc (độ sáng, độ tương phản, độ bão hòa, màu sắc và thang độ xám) và làm mờ Gaussian. Chúng tôi đã làm theo cùng một chiến lược trong cách tiếp cận của chúng tôi.

3.3. SimMIM

Máy biến áp đã nổi lên như một nhà nước của nghệ thuật cho một loạt các nhiệm vụ liên quan đến tầm nhìn, chủ yếu là do khả năng đặc biệt của họ trong việc trích xuất tính năng và học tập biểu diễn [37]. Tiến bộ này đã truyền cảm hứng cho việc khám phá của chúng tôi vào ứng dụng của họ để phát hiện khuyết tật trong quy trình sản xuất.

Hơn nữa, với mục đích tối đa hóa khả năng của Transformers, việc lựa chọn phương pháp tiền đào tạo là rất quan trọng [47]. Xem xét nhu cầu về các mô hình phát hiện khuyết tật để phát hiện chính xác các tính năng trên nhiều độ phân giải, chúng tôi đã chọn phương pháp SimMIM [44] cho giai đoạn tiền đào tạo về hình ảnh sản xuất tia X. Sự lựa chọn này được thông báo bởi khả năng tương thích của SimMIM với Máy biến áp tầm nhìn đa quy mô, điều này rất cần thiết để phân biệt tính năng hiệu quả ở các quy mô khác nhau. Áp dụng phương pháp mô hình hóa hình ảnh đeo mặt nạ, SimMIM nhằm mục đích có được các biểu diễn trực quan bằng cách tái tạo các bản vá hình ảnh được che giấu ngẫu nhiên. Cách tiếp cận này cho phép hiểu sâu hơn về bối cảnh thị giác cơ bản.

Cách tiếp cận SimMIM kết hợp chiến lược giải mã bộ mã hóa. Bộ mã hóa chịu trách nhiệm trích xuất các biểu diễn tính năng tiềm ẩn từ các phần không được che giấu của các bản vá hình ảnh. Bộ giải mã tái tạo lại các giá trị pixel của các bản vá lỗi.

l_{1}

Mất mát được sử dụng để đào tạo mô hình này. Quá trình này liên quan đến các bản đồ tính năng có độ phân giải được lấy mẫu xuống từ bộ mã hóa được ánh xạ trở lại bản đồ tính năng có độ phân giải ban đầu thông qua lớp tích chập 1 × 1. Các

l_{1}

Sau đó, chức năng mất được áp dụng cụ thể cho các pixel bị che bằng công thức sau:

ℒ = 1 Ω ( 𝑥 𝑀 ) ∥ 𝐲 𝑀 - 𝐱 𝑀 ∥ 1

(3)

trong đó x và y đại diện cho hình ảnh đầu vào và các giá trị dự đoán, tương ứng, với M biểu thị các pixel được che và $Ω$ số lượng hình ảnh. Hình 3 cung cấp một biểu diễn sơ đồ của kiến trúc mô hình.

Hình 3. Tổng quan về kiến trúc SimMIM [44]. SimMIM dựa trên cơ chế giải mã bộ mã hóa được sử dụng để trích xuất tính năng và tái tạo các bản vá hình ảnh bị che giấu. Bộ mã hóa xử lý các phần không bị che khuất của hình ảnh, trong khi bộ giải mã nhằm mục đích tái tạo lại các khu vực bị che khuất. Nó được đào tạo bằng cách sử dụng một

l_{1}

Chức năng mất để ánh xạ các tính năng có độ phân giải lấy mẫu xuống ánh xạ trở lại độ phân giải ban đầu của chúng.

Khía cạnh quan trọng của SimMIM là quá trình tái tạo hiệu quả của nó, chứng minh rằng đầu dự đoán nhẹ có thể hoạt động tương đương, nếu không muốn nói là tốt hơn so với các bộ giải mã tái tạo phức tạp hơn [44]. Hiệu quả này không chỉ duy trì độ chính xác mà còn giảm đáng kể thời gian tiền đào tạo và nhu cầu tài nguyên tính toán.

Chiến lược mặt nạ trong SimMIM, rất quan trọng để tối đa hóa hiệu quả của nó, liên quan đến việc áp dụng mặt nạ ngẫu nhiên cho hình ảnh. SimMIM chứng minh rằng kích thước bản vá lớn hơn hoặc tỷ lệ che giấu cao hơn dẫn đến hiệu suất được cải thiện trong các tác vụ hạ nguồn [44]. Điều này được cho là do giảm mối tương quan giữa các pixel không bị che và bị che khi các khu vực hình ảnh lớn hơn được che lại, buộc người mẫu phải tìm hiểu thêm thông tin ngữ nghĩa thay vì sao chép các pixel có tương quan cao gần nhất. Ví dụ, trong phân loại ImageNet, SimMIM đạt được kết quả tối ưu với kích thước miếng vá mặt nạ 32 pixel và tỷ lệ mặt nạ 60% vì nó buộc mô hình phải suy ra các tính năng hình ảnh phức tạp hơn và ít rõ ràng hơn.

Một lợi thế đáng chú ý của chiến lược SimMIM so với các phương pháp tiếp cận như SimSiam là nó không yêu cầu tăng cường dữ liệu được lựa chọn cụ thể cho từng vấn đề. Đặc tính này đơn giản hóa việc áp dụng phương pháp trong các tình huống khác nhau, giảm nhu cầu về các chiến lược tăng cường tùy chỉnh và do đó tối ưu hóa quá trình đào tạo mô hình và thích ứng với các nhiệm vụ khác nhau.

4. Thực hiện và kết quả

Trong phần này, chúng tôi trình bày các thí nghiệm được thực hiện để đánh giá hiệu quả của các mô hình được đào tạo trước về hình ảnh X-quang của các sản phẩm sản xuất. Chúng tôi trình bày chi tiết các bộ dữ liệu cụ thể được sử dụng trong các thí nghiệm của chúng tôi và thảo luận về các phương pháp được áp dụng. Phần này cũng thảo luận về các kết quả thu được, cung cấp cái nhìn sâu sắc về ý nghĩa hiệu suất của các phương pháp tiền đào tạo khác nhau.

4.1. Đào tạo trước về hình ảnh X-quang

Chúng tôi đã sử dụng hai phương pháp tự giám sát nêu trên, SimSiam [35] và SimMIM [44], để thực hiện giai đoạn tiền đào tạo mô hình trên hình ảnh sản xuất tia X. Giả thuyết của chúng tôi là việc đào tạo trước tự giám sát trên một bộ dữ liệu lớn về hình ảnh tia X có thể cải thiện hiệu suất của các mô hình trong sản xuất các nhiệm vụ phát hiện lỗi hạ nguồn.

Đối với giai đoạn tiền đào tạo, một khối lượng hình ảnh đáng kể là điều cần thiết. Tuy nhiên, cách tiếp cận tự giám sát giúp loại bỏ sự cần thiết của chú thích, giúp thu thập một tập dữ liệu lớn không được gắn nhãn dễ dàng hơn. Trong các môi trường công nghiệp nơi hình ảnh không có chú thích có sẵn, cách tiếp cận này đặc biệt thuận lợi, phá vỡ quy trình tốn kém và tốn nhiều công sức để chú thích các lỗi theo cách thủ công. Sau đó, một phân tích chuyên sâu về các bộ dữ liệu được sử dụng trong nghiên cứu của chúng tôi được cung cấp trong Phần 4.2.

Để đánh giá tác động của pretraining đối với hình ảnh X-quang, chúng tôi đã đối chiếu các mô hình được tinh chỉnh từ ImageNet với các mô hình được tinh chỉnh sau khi đào tạo trước hình ảnh X-quang. Chúng tôi đã sử dụng hai giao thức đánh giá để so sánh: phân loại tuyến tính và tinh chỉnh.

Phân loại tuyến tính: Phương pháp đánh giá này là một giao thức được công nhận rộng rãi để đánh giá hiệu quả của các kỹ thuật học tập tự giám sát [28,29,35,48]. Theo cách tiếp cận này, mạng xương sống được đào tạo trước được giữ cố định (đóng băng) và đánh giá tập trung vào việc đào tạo một lớp được kết nối đầy đủ duy nhất được gắn vào đỉnh của xương sống. Lớp bổ sung này, kết hợp chức năng kích hoạt softmax, xử lý vectơ tính năng có nguồn gốc từ lớp tổng hợp trung bình toàn cầu của xương sống và nó được đào tạo trên tập dữ liệu đích. Mục tiêu chính của giao thức này là đánh giá và so sánh khả năng phân loại của các mạng xương sống khác nhau trong một cài đặt tiêu chuẩn, do đó cung cấp thông tin chi tiết về hiệu suất và khả năng thích ứng tương đối của chúng;
Tinh chỉnh: Trong giao thức này, các tính năng của xương sống được đào tạo trước được điều chỉnh cho các tác vụ hạ lưu cụ thể, chẳng hạn như phát hiện lỗi. Quá trình này liên quan đến việc sử dụng các trọng số được đào tạo trước của xương sống làm thiết lập ban đầu, sau đó được tinh chỉnh cho các kiến trúc tác vụ cụ thể như Faster R-CNN [19] và UNet [49] trên tập dữ liệu đích, nâng cao hiệu suất của chúng trong các ứng dụng chuyên biệt.

Tinh chỉnh thường vượt qua phân loại tuyến tính về hiệu suất, phần lớn là do việc sử dụng các kiến trúc phức tạp hơn và các ràng buộc vốn có liên quan đến việc sử dụng xương sống đóng băng trong phương pháp phân loại tuyến tính. Bằng cách phân tích đồng thời cả hai giao thức, chúng tôi đã tạo điều kiện đánh giá nhanh chóng nhưng toàn diện về các trình trích xuất tính năng khác nhau. Phân tích phương pháp kép này cung cấp một khuôn khổ đáng tin cậy và mạnh mẽ để đánh giá các mô hình, đặc biệt phù hợp với nhu cầu của các ứng dụng công nghiệp trong thế giới thực, nơi hiệu suất thực tế và khả năng thích ứng là tối quan trọng. Tuy nhiên, mục tiêu chính của nghiên cứu này là nâng cao hiệu quả của các hệ thống phát hiện lỗi sản xuất hiện có. Trong bối cảnh này, tinh chỉnh nổi lên như một số liệu quan trọng hơn do tác động trực tiếp của nó trong việc cải thiện khả năng phát hiện thực tế. Do đó, chúng tôi đã chọn tinh chỉnh làm giao thức chính để phát hiện lỗi sản xuất.

4.2. Trường hợp sử dụng

Trong các thí nghiệm sau, chúng tôi nhằm mục đích đánh giá hiệu quả của các phương pháp bằng cách sử dụng hai bộ dữ liệu chính.

4.2.1. Bộ dữ liệu công nghiệp

Bộ dữ liệu công nghiệp bao gồm các hình ảnh sản xuất tia X thu được từ dây chuyền sản xuất trong một công ty sản xuất. Dữ liệu thí nghiệm thu được bằng máy X-quang chụp hình ảnh của các sản phẩm sản xuất trên dây chuyền sản xuất. Những hình ảnh này được lưu trữ và sau đó được chú thích bởi một chuyên gia X-quang để sử dụng trong đào tạo mô hình.

Việc thu thập hình ảnh tia X được sử dụng trong nghiên cứu này phải tuân theo các giao thức độc quyền và bí mật theo yêu cầu của công ty sản xuất hợp tác. Điều quan trọng cần lưu ý là nghiên cứu của chúng tôi chỉ bắt đầu sau khi các hình ảnh đã được thu thập, chỉ tập trung vào phân tích dựa trên học sâu về những hình ảnh này. Chúng tôi không tham gia hoặc không có quyền truy cập vào quá trình thu thập hình ảnh. Làm nổi bật thực tế này là điều cần thiết để hiểu rõ trọng tâm nghiên cứu của chúng tôi, chỉ phân tích các hình ảnh được cung cấp.

Tập dữ liệu này được chia thành hai tập hợp con: một bộ dữ liệu tiền đào tạo mở rộng và một bộ dữ liệu mục tiêu nhỏ hơn, được chú thích để đánh giá và tinh chỉnh mô hình. Ban đầu, chúng tôi đã biên soạn một bộ đáng kể chứa 27.901 hình ảnh không được gắn nhãn, mà chúng tôi chỉ định là tập dữ liệu tiền đào tạo. Bộ dữ liệu này đóng vai trò là nền tảng cho giai đoạn tiền đào tạo, chủ yếu là do thiếu chú thích. Việc thu thập các hình ảnh không được gắn nhãn trong một môi trường công nghiệp thực tế là tương đối đơn giản. Sau đó, một bộ thứ hai được phát triển với các chú thích cấp độ hình ảnh và sự thật mặt đất, bao gồm 5786 hình ảnh. Bộ này nhỏ hơn bộ đầu tiên, chủ yếu là do chú thích hình ảnh tốn nhiều tài nguyên. Tuy nhiên, kích thước này được coi là phù hợp với mục đích của chúng tôi. Chúng tôi đã chỉ định tập hợp này làm tập dữ liệu đích, được sử dụng cả để đánh giá xương sống bằng giao thức phân loại tuyến tính và để tinh chỉnh mô hình đặc biệt để phát hiện lỗi sản xuất trong môi trường công nghiệp. Trong cả hai bộ dữ liệu, hình ảnh thang độ xám mô tả các góc nhìn khác nhau của cùng một sản phẩm, mỗi góc có kích thước từ 1024 × 1024 pixel. Trong tập dữ liệu đích, các chú thích sự thật mặt đất cho tất cả các lỗi được cung cấp dưới dạng hộp giới hạn, đảm bảo các điểm tham chiếu chính xác để phát hiện lỗi. Bộ dữ liệu đích chứa 19 loại khuyết tật được chú thích với kích thước, quy mô và cường độ đa dạng, thể hiện sự thay đổi đáng kể. Sau bước tiền xử lý, các khuyết tật được phân loại thành hai nhóm chính: nghiêm trọng và nhỏ. Như tên gọi của chúng, việc phát hiện chính xác các khuyết tật nghiêm trọng là rất cần thiết do các tác động an toàn tiềm ẩn. Phát hiện các khuyết tật nhỏ cũng rất quan trọng, mặc dù mức độ nghiêm trọng của chúng tương đối thấp hơn, khiến việc xác định chúng trở nên quan trọng không kém nhưng ít quan trọng hơn đối với các mối quan tâm về an toàn. Phân phối khuyết tật bao gồm 7 loại khuyết tật nghiêm trọng và 12 loại khuyết tật nhỏ, đặt ra một vấn đề phát hiện khuyết tật đầy thách thức với mục tiêu kép: xác định vị trí khuyết tật trên sản phẩm và phân loại chúng thành một trong hai loại. Liên quan đến phân phối tập dữ liệu, sự mất cân bằng lớp đáng kể là rõ ràng, với 1784 mẫu cho các khuyết tật nghiêm trọng và 4002 mẫu cho các khuyết tật nhỏ. Việc phân vùng tập dữ liệu mục tiêu thành các bộ đào tạo và kiểm tra trong khi vẫn duy trì tỷ lệ lớp được trình bày chi tiết trong Bảng 1.

Bảng 1. Phân phối hình ảnh cho các khiếm khuyết nghiêm trọng và nhỏ trong tập dữ liệu đích.

4.2.2. Bộ dữ liệu GDXray

Vì tập dữ liệu được đề cập ở trên là riêng tư, chúng tôi cũng đã xem xét đánh giá các phương pháp trên tập dữ liệu chuẩn. GDXray [20] là một bộ dữ liệu có sẵn công khai về hình ảnh X-quang. Nó chứa 19.407 hình ảnh được tổ chức thành năm nhóm: đúc, mối hàn, hành lý, vật thể tự nhiên và cài đặt, mỗi nhóm có nhiều chuỗi. Khi chúng tôi xử lý việc phát hiện lỗi sản xuất, chúng tôi tập trung vào nhóm đúc, liên quan đến sản xuất và bao gồm 2727 hình ảnh tia X từ 67 series chủ yếu có các bộ phận ô tô như bánh xe nhôm và đốt ngón tay. Những hình ảnh này được chú thích bằng các hộp giới hạn, tương tự như trong tập dữ liệu đầu tiên, cung cấp một điểm chuẩn để đánh giá các phương pháp của chúng tôi trong phát hiện lỗi sản xuất. Tuy nhiên, đáng chú ý là, không giống như bộ dữ liệu mục tiêu công nghiệp của chúng tôi, GDXray không phân loại lỗi thành các loại khác nhau. Ngoài ra, xem xét rằng các tài liệu hiện có sử dụng GDXray chủ yếu giải quyết vấn đề phát hiện lỗi hơn là phân loại, chúng tôi đã chọn không thực hiện đánh giá phân loại tuyến tính cho tập dữ liệu này. Do đó, phân tích của chúng tôi về bộ dữ liệu GDXray bị giới hạn trong việc đánh giá tinh chỉnh.

4.3. Kết quả

Trong phần này, chúng tôi trình bày một số thí nghiệm để đánh giá những lợi thế của việc áp dụng một giai đoạn tiền đào tạo cụ thể cho hình ảnh sản xuất tia X.

4.4. Phân loại tuyến tính

Ban đầu, chúng tôi đào tạo một mô hình xương sống sử dụng cả SimSiam và SimMIM. Chúng tôi đã tuân theo sơ đồ mặc định từ các giấy tờ gốc trong cả hai trường hợp và chúng tôi đã đào tạo các mô hình cho 100 kỷ nguyên. Sau đó, chúng tôi thực hiện giao thức đánh giá tiêu chuẩn cho các mô hình được đào tạo trước; Chúng tôi đã thêm một lớp tuyến tính ở trên cùng của mô hình, với phần còn lại của các lớp xương sống bị đóng băng. Chúng tôi đã đào tạo mô hình phân loại này trên tập dữ liệu đích với các lỗi nghiêm trọng và nhỏ. Chúng tôi đã thiết lập một đường cơ sở bằng cách sử dụng một mô hình với các trọng số được đào tạo trước ImageNet. Đối với SimSiam, chúng tôi đã sử dụng ResNet50 [45] làm trình trích xuất tính năng, tạo ra vectơ tính năng 2048 chiều cho lớp phân loại. Ngược lại, đối với SimMIM, chúng tôi đã sử dụng Swin Transformer gốc [38] được cấu hình với kích thước cửa sổ 12 pixel. Vectơ tính năng trong trường hợp của Swin Transformer là 1024 chiều. Kết quả của phân loại tuyến tính này trên tập dữ liệu mục tiêu của chúng tôi được trình bày chi tiết trong Bảng 2.

Bảng 2. Kết quả phân loại tuyến tính trên bộ dữ liệu mục tiêu công nghiệp cho cả xương sống ResNet và Swin-T. ImageNet đề cập đến mô hình được đào tạo trước với tập dữ liệu ImageNet tiêu chuẩn, X-quang SimSiam biểu thị trọng lượng thu được từ phương pháp SimSiam được đào tạo trước bằng hình ảnh tia X và SimMIM tia X cho biết trọng lượng bắt nguồn từ phương pháp SimMIM trong các điều kiện tương tự.

Bảng 2 so sánh hiệu suất của các kiến trúc xương sống khác nhau bằng cách sử dụng trọng lượng ImageNet so với trọng lượng thu được thông qua các phương pháp huấn luyện trước tự giám sát với hình ảnh X-quang. Từ kết quả, chúng tôi quan sát thấy rằng, đối với xương sống ResNet, phương pháp đào tạo trước SimSiam vượt trội hơn phương pháp được giám sát về cả Độ chính xác trung bình (AP) và độ chính xác. Cụ thể, SimSiam đạt được AP cao hơn 75,9 so với 72,5 và độ chính xác được cải thiện là 71,2 so với 68,4 được thấy bằng phương pháp được giám sát. Tuy nhiên, đối với xương sống Swin-T, phương pháp giám sát thể hiện hiệu suất vượt trội với AP cao 87,9 và độ chính xác 82,2.

Tuy nhiên, điều quan trọng cần lưu ý là kết quả từ việc đào tạo trước với SimMIM không thỏa đáng. Cách tiếp cận này dường như làm nổi bật các đặc điểm toàn cầu của hình ảnh hơn là các đặc điểm liên quan hơn liên quan đến các khiếm khuyết. Vì các khuyết tật thường khá nhỏ so với độ phân giải hình ảnh tổng thể, các tính năng thích hợp với các khuyết tật này có xu hướng bị lu mờ bởi các đặc điểm cấu trúc nổi bật hơn của sản phẩm được sản xuất. Xu hướng này có xu hướng làm giảm hiệu quả trong việc phát hiện khuyết tật cụ thể trừ khi tinh chỉnh được áp dụng cho xương sống để dạy chính xác các đặc điểm của khuyết tật. Trong những trường hợp như vậy, mô hình tìm hiểu cả các đặc điểm cấu trúc của sản phẩm và các đặc tính cục bộ của các khuyết tật, trái ngược với các giá trị AP và độ chính xác thấp hơn được quan sát thấy trong quá trình đào tạo trước SimMIM mà không cần tinh chỉnh mục tiêu như vậy. Tuy nhiên, như chúng tôi đã giải thích trong Phần 4.1, tinh chỉnh là giao thức tối ưu để phát hiện lỗi sản xuất.

4.5. Tinh chỉnh bộ dữ liệu sản xuất

Sau giai đoạn phân loại tuyến tính, nghiên cứu của chúng tôi tiến tới giai đoạn tinh chỉnh toàn diện hơn và chúng tôi đã áp dụng mô hình R-CNN nhanh hơn để phát hiện lỗi trên hai bộ dữ liệu riêng biệt: bộ dữ liệu mục tiêu công nghiệp của chúng tôi và bộ dữ liệu GDXray chuẩn. Giai đoạn này được thiết kế để cung cấp cái nhìn sâu sắc hơn về khả năng ứng dụng và hiệu quả thực tế của các mô hình được đào tạo trước trong bối cảnh công nghiệp thực tế và đa dạng.

Trong giai đoạn đầu của giai đoạn tinh chỉnh này, chúng tôi đã đào tạo mô hình R-CNN nhanh hơn trên tập dữ liệu mục tiêu công nghiệp bằng cách sử dụng ba bộ trọng lượng bắt đầu: những trọng lượng thu được từ quá trình đào tạo trước tia X bằng cả phương pháp SimSiam và SimMIM và những trọng lượng được khởi tạo bằng ImageNet. Chiến lược này được sử dụng để đánh giá hiệu quả của các mô hình trong việc xử lý các nhiệm vụ phát hiện khuyết tật phức tạp, trong thế giới thực trong ngành sản xuất. Kết quả, như được nêu chi tiết trong Bảng 3, minh họa hiệu suất vượt trội của các phương pháp đào tạo trước SimSiam và SimMIM so với phương pháp giám sát thông thường, đặc biệt là trong việc xác định các khiếm khuyết nghiêm trọng.

Bảng 3. Tinh chỉnh kết quả phát hiện khuyết tật cho bộ dữ liệu sản xuất. Hiệu suất tinh chỉnh của mô hình R-CNN nhanh hơn được đánh giá trên hai bộ dữ liệu, bộ dữ liệu mục tiêu công nghiệp và bộ dữ liệu GDXray, sử dụng xương sống ResNet và Swin-T với trọng lượng ban đầu khác nhau (ImageNet, X-ray SimSiam và X-ray SimMIM). Độ chính xác trung bình trung bình (mAP) được báo cáo cho tập dữ liệu công nghiệp và Độ chính xác trung bình (AP) cho tập dữ liệu GDXray, được chỉ định là (m) AP. Ký hiệu này được sử dụng vì tập dữ liệu công nghiệp chứa hai loại lỗi, trong khi tập dữ liệu GDXray không phân loại lỗi. Ngoài ra, AP-Critical được báo cáo cho tập dữ liệu công nghiệp, cho biết độ chính xác của mô hình trong việc phát hiện các khuyết tật nghiêm trọng.

Sau đó, đánh giá của chúng tôi đã được mở rộng sang tập dữ liệu GDXray, sao chép quá trình tinh chỉnh được thực hiện với tập dữ liệu mục tiêu công nghiệp nhưng lần này áp dụng nó vào bộ dữ liệu đào tạo GDXray. Bước này nhằm kiểm tra tính khái quát và tính mạnh mẽ của mô hình trong một bối cảnh khác biệt rõ rệt. Bộ dữ liệu GDXray, với các đặc điểm và thách thức độc đáo, đã cung cấp một nền tảng lý tưởng để đánh giá các mô hình, được đào tạo trước trên tập dữ liệu không nhãn công nghiệp của chúng tôi, có thể thích ứng và hoạt động tốt như thế nào trong một loạt các kịch bản công nghiệp.

Các kết quả kết hợp từ cả hai bộ dữ liệu được trình bày trong Bảng 3, bao gồm các chỉ số hiệu suất trên cả tập dữ liệu mục tiêu công nghiệp và tập dữ liệu GDXray. Những kết quả này nhấn mạnh tính linh hoạt và hiệu quả của các phương pháp tiền đào tạo SimSiam và SimMIM trong việc nâng cao hiệu suất của các mô hình phát hiện khuyết tật trên các bộ dữ liệu hình ảnh tia X đa dạng.

Đối với bộ dữ liệu công nghiệp, hiệu suất của mô hình được định lượng bằng Độ chính xác trung bình trung bình (mAP) và AP-Critical, sau này cho thấy độ chính xác trong việc phát hiện các khuyết tật nghiêm trọng. Kết quả cho thấy cả hai phương pháp pretraining SimSiam và SimMIM đều nâng cao hiệu suất so với khởi tạo ImageNet truyền thống. Đáng chú ý, đối với xương sống ResNet, phương pháp SimSiam mang lại mAP cao hơn một chút là 89,6 và AP-Critical là 94,8 so với trọng số ImageNet. Tương tự, xương sống Swin-T được đào tạo trước với SimMIM phù hợp với mAP cao nhất là 91.3 đạt được bởi phiên bản ImageNet và thậm chí còn vượt qua nó trong AP-Critical với số điểm 95.5.

Trên tập dữ liệu GDXray, quá trình tinh chỉnh đã chứng minh khả năng khái quát hóa của các mô hình được đào tạo trước. Mô hình ResNet được đào tạo trước SimSiam đạt được AP là 96.0, vượt trội hơn một chút so với phiên bản dựa trên ImageNet từ Ferguson et al. [4]. Đối với xương sống Swin-T, phương pháp huấn luyện trước SimMIM dẫn đến AP là 94,6, cho thấy hiệu suất được cải thiện so với trọng số ImageNet. Những phát hiện này từ cả hai bộ dữ liệu nhấn mạnh hiệu quả của các kỹ thuật đào tạo trước SimSiam và SimMIM, không chỉ trong việc cải thiện hiệu suất mô hình trong bối cảnh cụ thể của phát hiện lỗi công nghiệp mà còn khái quát hóa tốt cho phổ rộng hơn của các kịch bản hình ảnh X-quang.

4.6. Kết quả định tính

Trong tiểu mục này, chúng tôi trình bày kết quả thử nghiệm thông qua các hình ảnh trực quan làm nổi bật hiệu suất của mô hình phát hiện lỗi của chúng tôi. Tuy nhiên, do lo ngại về tính bảo mật, chúng tôi không thể hiển thị hình ảnh từ tập dữ liệu công nghiệp trong hình ảnh trực quan của chúng tôi. Thay vào đó, chúng tôi tập trung vào bộ dữ liệu GDXray để chứng minh hiệu suất của mô hình phát hiện lỗi của chúng tôi. Cụ thể, chúng tôi nhấn mạnh hiệu quả của xương sống ResNet được đào tạo trước bằng hình ảnh X-quang bằng cách sử dụng phương pháp SimSiam. Thông qua hình ảnh trực quan trong Hình 4, chúng tôi mong muốn cung cấp cái nhìn sâu sắc về ứng dụng thực tế và hiệu quả của mô hình của chúng tôi trong việc xác định các khiếm khuyết trong các tình huống công nghiệp.

Hình 4. Kết quả phát hiện lỗi trên tập dữ liệu GDXray. Hình này minh họa hình ảnh tia X ban đầu, chú thích sự thật mặt đất và dự đoán của mô hình.

5. Thảo luận

Những thí nghiệm này đã làm sáng tỏ hiệu quả của các phương pháp tiền đào tạo sử dụng hình ảnh X-quang, đặc biệt là trong bối cảnh phát hiện các khiếm khuyết trong sản xuất sản phẩm. Các thí nghiệm của chúng tôi cho thấy các mô hình được đào tạo trước bằng hình ảnh tia X thường vượt trội hơn các mô hình được đào tạo trước với ImageNet trong việc phân biệt các tính năng liên quan để phát hiện lỗi. Tính ưu việt này của pretraining theo miền cụ thể làm nổi bật tầm quan trọng của việc sắp xếp giai đoạn tiền đào tạo với các đặc điểm độc đáo của hình ảnh nhiệm vụ cụ thể.

Khi so sánh các xương sống khác nhau, các mô hình Máy biến áp Swin thể hiện hiệu suất vượt trội so với CNN khi dữ liệu lớn, được dán nhãn có sẵn [37]. Tuy nhiên, kịch bản khác với tập dữ liệu GDXray, có ít hình ảnh được gắn nhãn hơn; ở đây, xương sống CNN mang lại kết quả tốt hơn. Điều này cho thấy rằng, trong khi Transformers hoạt động tốt hơn trong môi trường giàu dữ liệu, CNN có thể hiệu quả hơn với dữ liệu hạn chế.

Một khía cạnh quan trọng trong nghiên cứu của chúng tôi là sự cải thiện rõ rệt trong việc phát hiện các khuyết tật nghiêm trọng sau khi đào tạo trước bằng hình ảnh X-quang. Cải tiến này đặc biệt thích hợp trong các cơ sở công nghiệp, nơi xác định chính xác các khiếm khuyết như vậy là rất quan trọng đối với sự an toàn và độ tin cậy. Sự tăng cường này trong việc phát hiện khuyết tật, đặc biệt là đối với các khuyết tật nghiêm trọng, có thể có ý nghĩa đáng kể đối với các ứng dụng công nghiệp. Hơn nữa, việc đào tạo trước về hình ảnh tia X đã chứng minh kết quả được cải thiện ngay cả với bộ dữ liệu GDXray nhỏ hơn, cho thấy khả năng thích ứng của các mô hình với các khối lượng dữ liệu khác nhau. Khả năng thích ứng này là một đặc điểm quan trọng để triển khai thực tế, nơi tính khả dụng của dữ liệu có thể thay đổi.

Mặc dù hệ thống của chúng tôi chưa được triển khai trong môi trường sản xuất thực tế, nhưng những phát hiện của chúng tôi cho thấy rằng nó hứa hẹn cho các ứng dụng trong tương lai. Thời gian thực hiện khoảng 0,126 giây cho mỗi hình ảnh định vị phương pháp của chúng tôi nằm trong giới hạn hoạt động được đặt ra bởi các tiêu chuẩn ngành, cho phép tối đa 1 giây để phân tích hình ảnh. Chỉ số hiệu suất này cho thấy khả năng tồn tại của phương pháp tích hợp dây chuyền sản xuất của chúng tôi. Nó nhấn mạnh tiềm năng triển khai trong thế giới thực, do đó nâng cao tính khả thi của việc sử dụng học sâu để phát hiện các lỗi trong cài đặt sản xuất.

6. Kết luận

Nghiên cứu này góp phần vào những nỗ lực không ngừng trong việc tăng cường phát hiện khuyết tật trong sản xuất các sản phẩm sử dụng hình ảnh tia X. Các thí nghiệm và phân tích toàn diện của chúng tôi cho thấy một số phát hiện chính nhấn mạnh tính hiệu quả và khả năng áp dụng thực tế của phương pháp được đề xuất của chúng tôi trong các thiết lập công nghiệp. Nghiên cứu của chúng tôi kết luận rằng các mô hình được đào tạo trước về hình ảnh tia X luôn hoạt động tốt hơn những mô hình được đào tạo trước với trọng lượng ImageNet. Phát hiện này rất quan trọng vì nó nhấn mạnh tầm quan trọng của pretraining miền cụ thể trong việc tăng cường khả năng của mô hình để phân biệt các tính năng liên quan để phát hiện lỗi. Bằng cách căn chỉnh giai đoạn tiền đào tạo với các đặc điểm độc đáo của hình ảnh theo nhiệm vụ cụ thể, chúng tôi đã đạt được khả năng phát hiện vượt trội so với các khả năng đạt được với các mô hình được đào tạo trước trên các hình ảnh tổng quát hơn. Hơn nữa, việc so sánh các kiến trúc xương sống khác nhau cho thấy các xu hướng có giá trị. Chúng tôi quan sát thấy rằng, trong các kịch bản có dữ liệu được gắn nhãn phong phú, các mô hình Swin Transformer hoạt động tốt hơn CNN truyền thống, trong khi xương sống CNN hiệu quả hơn trong các bộ dữ liệu có ít hình ảnh được gắn nhãn hơn. Điều này ngụ ý rằng một mô hình tối ưu có thể được chọn tùy thuộc vào số lượng dữ liệu có sẵn và các yêu cầu cụ thể của nhiệm vụ. Đặc biệt đáng chú ý là sự cải thiện trong việc phát hiện các khuyết tật nghiêm trọng, một mối quan tâm quan trọng trong các thiết lập công nghiệp, đạt được thông qua việc đào tạo trước về hình ảnh X-quang. Trong bối cảnh công nghiệp, nơi việc xác định chính xác các khiếm khuyết như vậy là rất quan trọng để đảm bảo an toàn và duy trì các tiêu chuẩn chất lượng cao, những tiến bộ được hiển thị có thể góp phần đáng kể vào việc giảm rủi ro và nâng cao độ tin cậy.

Tóm lại, nghiên cứu này giới thiệu một phương pháp thúc đẩy đào tạo trước theo miền cụ thể với hình ảnh tia X để tăng cường phát hiện khuyết tật trong sản xuất sản phẩm. Đóng góp chính của chúng tôi nằm ở việc phát triển và áp dụng phương pháp này, trong đó nêu bật những lợi thế của việc đào tạo trước tùy chỉnh và lựa chọn chiến lược của kiến trúc xương sống phù hợp với chi tiết cụ thể của dữ liệu. Phương pháp của chúng tôi đã cải thiện đáng kể độ chính xác trong việc phát hiện các khuyết tật nghiêm trọng, dẫn đến sự phát triển của một khung phát hiện mạnh mẽ hơn. Tiến bộ này không chỉ thúc đẩy biên giới của công nghệ phát hiện khuyết tật mà còn cung cấp những hiểu biết có giá trị cho việc thực hiện các mô hình này trong môi trường công nghiệp. Việc thực hiện như vậy có khả năng nâng cao hiệu quả của các biện pháp kiểm soát chất lượng, do đó làm tăng độ an toàn và độ tin cậy của sản phẩm. Hơn nữa, việc áp dụng các hệ thống phát hiện nâng cao này có thể dẫn đến giảm đáng kể thời gian ngừng hoạt động và chi phí bảo trì, tối ưu hóa quy trình sản xuất và tăng hiệu quả công nghiệp tổng thể. Bằng cách nâng cao chất lượng sản phẩm và giảm thiểu tỷ lệ thất bại, chiến lược của chúng tôi hỗ trợ duy trì danh tiếng của các đơn vị sản xuất và nâng cao niềm tin của người tiêu dùng.

Theo: Applied Sciences | Free Full-Text | A Methodology for Advanced Manufacturing Defect Detection through Self-Supervised Learning on X-ray Images (mdpi.com)

Một phương pháp để phát hiện lỗi sản xuất tiên tiến thông qua học tập tự giám sát trên hình ảnh X-quang

Một phương pháp để phát hiện lỗi sản xuất tiên tiến thông qua học tập tự giám sát trên hình ảnh X-quang

Tóm lược

1. Giới thiệu

2. Công việc liên quan

2.1. Phát hiện lỗi sản xuất

2.2. Học tự giám sát

3. Vật liệu và phương pháp

3.1. Phương pháp luận của chúng tôi

3.2. SimSiam

3.3. SimMIM

4. Thực hiện và kết quả

4.1. Đào tạo trước về hình ảnh X-quang

4.2. Trường hợp sử dụng

4.2.1. Bộ dữ liệu công nghiệp

4.2.2. Bộ dữ liệu GDXray

4.3. Kết quả

4.4. Phân loại tuyến tính

4.5. Tinh chỉnh bộ dữ liệu sản xuất

4.6. Kết quả định tính

5. Thảo luận

6. Kết luận

NGUYỄN QUANG HƯNG BLOG

Ý kiến bạn đọc (0)

Để lại một bình luận Hủy

Kết nối với chúng tôi

Chủ đề