Google 發布新一代基於 Rust 和 AI 驅動的文件類型偵測工具 Magika 1.0


Google 的 AI 檔案類型偵測系統 Magika 在去年發布 Alpha 版本,如今正式迎來 1.0 版本,這是首個穩定版本,並引入了多項新功能和重大改進。

主要亮點

  • 擴展了文件類型支持,新增超過 200 種類型(之前約為 100 種)
  • 一個完全用 Rust 語言重寫的全新高效能引擎
  • 一款原生 Rust 命令列客戶端,可實現最高速度和安全性
  • 提高了對程式碼和設定檔等複雜文字格式的識別準確率
  • 經過改進的 Magika Python 和 TypeScript 模組,整合更加便利

Magika 1.0 現在可識別超過 200 種內容類型,比初始版本支援的文件類型數量翻了一番。

新文件類型包括

  • 資料科學與機器學習:我們增加了對 Jupyter Notebooks (ipynb)、Numpy 陣列 (npy, npz)、PyTorch 模型 (pytorch)、ONNX (onnx) 檔案、Apache Parquet (parquet) 和 HDF5 (h5) 等格式的支援。
  • 現代程式設計與 Web:該模型現在可識別數十種語言和框架。主要新增內容包括 Swift (swift)、Kotlin (kotlin)、TypeScript (typescript)、Dart (dart)、Solidity (solidity)、Web Assembly (wasm) 和 Zig (zig)。
  • DevOps 和配置:我們擴展了對關鍵基礎設施和建置檔案的偵測,例如 Dockerfiles (dockerfile)、TOML (toml)、HashiCorp HCL (hcl)、Bazel (bazel) 建置檔案和 YARA (yara) 規則。
  • 資料庫和圖形:我們還增加了對常用格式的支持,例如 SQLite (sqlite) 資料庫、AutoCAD (dwg, dxf) 圖形、Adobe Photoshop (psd) 檔案和現代網頁字體 (woff, woff2)。
  • 粒徑增強: Magika 現在能夠更聰明地區分原本可能被歸類為一組的相似格式。

Google 使用 Rust 完全重寫了 Magika 的核心程式碼,以提供原生、快速且記憶體安全的內容識別功能。該引擎是全新 Magika 原生命令列工具的核心,該工具每秒可安全地掃描數百個檔案。

Linux 和 macOS

curl -LsSf https://securityresearch.google/magika/install.sh | sh

Windows

powershell -ExecutionPolicy ByPass -c "irm https://securityresearch.google/magika/install.ps1 | iex"

https://opensource.googleblog.com/2025/11/announcing-magika-10-now-faster-smarter.html


Picture Source

Google

留言