Google 的 AI 檔案類型偵測系統 Magika 在去年發布 Alpha 版本,如今正式迎來 1.0 版本,這是首個穩定版本,並引入了多項新功能和重大改進。
主要亮點
- 擴展了文件類型支持,新增超過 200 種類型(之前約為 100 種)
- 一個完全用 Rust 語言重寫的全新高效能引擎
- 一款原生 Rust 命令列客戶端,可實現最高速度和安全性
- 提高了對程式碼和設定檔等複雜文字格式的識別準確率
- 經過改進的 Magika Python 和 TypeScript 模組,整合更加便利
Magika 1.0 現在可識別超過 200 種內容類型,比初始版本支援的文件類型數量翻了一番。
新文件類型包括
- 資料科學與機器學習:我們增加了對 Jupyter Notebooks (ipynb)、Numpy 陣列 (npy, npz)、PyTorch 模型 (pytorch)、ONNX (onnx) 檔案、Apache Parquet (parquet) 和 HDF5 (h5) 等格式的支援。
- 現代程式設計與 Web:該模型現在可識別數十種語言和框架。主要新增內容包括 Swift (swift)、Kotlin (kotlin)、TypeScript (typescript)、Dart (dart)、Solidity (solidity)、Web Assembly (wasm) 和 Zig (zig)。
- DevOps 和配置:我們擴展了對關鍵基礎設施和建置檔案的偵測,例如 Dockerfiles (dockerfile)、TOML (toml)、HashiCorp HCL (hcl)、Bazel (bazel) 建置檔案和 YARA (yara) 規則。
- 資料庫和圖形:我們還增加了對常用格式的支持,例如 SQLite (sqlite) 資料庫、AutoCAD (dwg, dxf) 圖形、Adobe Photoshop (psd) 檔案和現代網頁字體 (woff, woff2)。
- 粒徑增強: Magika 現在能夠更聰明地區分原本可能被歸類為一組的相似格式。
Google 使用 Rust 完全重寫了 Magika 的核心程式碼,以提供原生、快速且記憶體安全的內容識別功能。該引擎是全新 Magika 原生命令列工具的核心,該工具每秒可安全地掃描數百個檔案。
Linux 和 macOS
curl -LsSf https://securityresearch.google/magika/install.sh | sh
Windows
powershell -ExecutionPolicy ByPass -c "irm https://securityresearch.google/magika/install.ps1 | iex"
https://opensource.googleblog.com/2025/11/announcing-magika-10-now-faster-smarter.html
Picture Source
.png)
留言
張貼留言