Bagaimana Generative AI Mengubah Dunia Keamanan Siber—dan Bagaimana Kami Memastikan Keandalannya

Generative AI (GenAI) sedang merevolusi dunia keamanan siber dengan memungkinkan deteksi ancaman yang lebih cepat dan analisis yang lebih mendalam. Namun, dengan kekuatan ini muncul pertanyaan penting: bagaimana kita bisa mempercayai bahwa output yang dihasilkan AI benar-benar akurat dan andal?

Di Palo Alto Networks, kami menggabungkan machine learning tradisional dengan teknologi generative AI terbaru untuk membangun solusi yang tangguh dan dapat dipercaya. Salah satu komponen penting dari pendekatan ini adalah bagaimana kami mengevaluasi konten yang dihasilkan oleh AI.

Tantangan: Mengevaluasi Output AI Berbentuk Teks Bebas di Dunia Keamanan Siber

Machine learning tradisional biasanya menghasilkan output yang terstruktur dan mudah dievaluasi menggunakan metrik konvensional. Sebaliknya, generative AI sering kali menghasilkan teks bebas yang tidak terstruktur—jenis output yang jauh lebih sulit dievaluasi secara kuantitatif. Ini menjadi tantangan besar dalam dunia keamanan siber, di mana pemahaman dan penjelasan tentang ancaman dalam bahasa alami sangat penting.

Bayangkan ini: setiap hari, Palo Alto Networks menganalisis sejumlah besar file eksekusi mencurigakan—dari log firewall, aktivitas endpoint, hingga pengiriman langsung dari pelanggan. Menjelaskan risiko dari masing-masing file secara jelas dan akurat sangat penting untuk mencegah pelanggaran keamanan. Namun, kita tidak bisa mengandalkan penjelasan dari AI kecuali kita yakin bahwa penjelasan tersebut benar, mudah dipahami, dan relevan.

Tantangan ini juga berlaku untuk bidang lain seperti perlindungan data sensitif dalam email dan dokumen. Bagaimana kita menjelaskan situasi kepada pengguna, dan memastikan penjelasannya akurat?

Solusi Kami: Strategi Evaluasi Multi-Metode

Untuk memastikan akurasi dari output Precision AI kami, kami menggunakan berbagai metode evaluasi, termasuk BERTScore, LLM-as-a-judge, dan SIDE.

BERTScore

BERTScore sangat efektif ketika kami memiliki dataset besar yang berisi pasangan pertanyaan dan jawaban berkualitas tinggi. Metode ini mengevaluasi kesamaan antara teks yang dihasilkan AI dan jawaban referensi menggunakan model pembelajaran mendalam seperti BERT. Skor diberikan antara 0 hingga 1, mencerminkan seberapa dekat makna teks AI dengan referensi manusia.

Sebagai contoh, untuk mengevaluasi penjelasan AI terhadap skrip PowerShell yang mencurigakan, kami dapat membandingkannya dengan ribuan penjelasan yang ditulis oleh pakar. Metode ini, yang diperkenalkan pada 2020, telah terbukti sangat konsisten dengan penilaian manusia.

Namun, mengumpulkan dataset semacam itu memerlukan biaya dan waktu yang besar. Maka dari itu, kami juga menggunakan metode lain.

LLM-as-a-Judge

Model bahasa besar (LLM) juga dapat digunakan untuk mengevaluasi output AI lainnya. Sejak 2023, penelitian menunjukkan bahwa model seperti GPT-4 memiliki kesesuaian sekitar 80% dengan evaluasi manusia—setara dengan tingkat kesepakatan antar manusia dalam tugas-tugas subjektif.

Di Palo Alto Networks, kami menggunakan LLM yang kuat secara hati-hati untuk menilai penjelasan kode dan output teks bebas lainnya. Namun, metode ini memiliki tantangan: LLM memerlukan sumber daya besar, sering kali menghasilkan teks yang paling mungkin benar alih-alih yang paling optimal, dan keputusan mereka tidak selalu transparan.

SIDE (Summary Alignment to Code Semantics)

Sebagai alternatif dari LLM-as-a-judge, kami juga menggunakan model bergaya SIDE. SIDE lebih cepat, lebih mudah dijelaskan, dan sering kali seefektif manusia atau LLM dalam mengevaluasi kualitas penjelasan. Ia menggunakan teknik pembelajaran kontras (contrastive learning) untuk mengenali perbedaan dan kesamaan antar pasangan data.

Awalnya dikembangkan untuk penjelasan kode, SIDE memberikan skor tinggi untuk penjelasan yang baik, dan skor rendah untuk yang buruk. Model ini juga dapat diadaptasi untuk domain lain. Kelemahannya, seperti banyak model ML tradisional, SIDE kurang mampu menyesuaikan diri di luar data pelatihannya. Namun, jika dilatih dengan data yang representatif, SIDE dapat memberikan evaluasi yang cepat dan efisien dibandingkan metode berbasis LLM.

Keunggulan Palo Alto Networks

Setiap metode evaluasi memiliki keunggulan masing-masing. Di Palo Alto Networks, kami memilih teknik evaluasi berdasarkan tugas yang dihadapi, dengan fokus pada hasil yang berkualitas tinggi dan dapat dipercaya.

Praktik evaluasi kami yang ketat menjadikan Precision AI kami unggul. Dengan validasi yang cermat atas akurasi dan keandalan sistem AI kami, kami tidak sekadar mengikuti perkembangan keamanan siber—kami memimpinnya.

Jelajahi Kekuatan Precision AI®

Deteksi dan pertahankan diri dari AI yang bersifat adversarial secara real-time
Amankan penggunaan GenAI dan pengembangan aplikasi berbasis AI
Sederhanakan operasi keamanan dengan asisten keamanan bertenaga AI

Tetap Selangkah Lebih Maju dari Ancaman
Pelajari bagaimana intelijen ancaman dan demo berbasis AI kami dapat melindungi organisasi Anda.

Jika Anda ingin menyesuaikan versi ini untuk sektor tertentu atau audiens khusus (seperti CISO, analis, atau pengembang), beri tahu saya!

Jika Anda tertarik untuk mengetahui lebih lanjut, Anda dapat menghubungi Palo Alto Indonesia untuk mendapatkan informasi lebih detail mengenai produk dan solusi yang mereka tawarkan. Tim kami siap membantu Anda memastikan sistem TI Anda aman dan terlindungi. Apalagi, dukungan dari PT. iLogo Infralogy Indonesia tentu akan sangat membantu dalam memahami dan memaksimalkan potensi solusi Sistem Keamanan perusahaan Anda.

Bagaimana Generative AI Mengubah Dunia Keamanan Siber—dan Bagaimana Kami Memastikan Keandalannya

Kontak Kami

PT iLogo Indonesia