テキスト分類の概要

テキスト分類 (テキストのカテゴリ化とも呼ばれます) は、構造化されていないコンテンツまたはプレーン テキスト (電子メール、ニュース記事、コメントなど) にカスタム カテゴリを割り当てる処理です。コンテンツは、題名、著者、日付、または、ユーザが考案した実質的に任意の分類体系に基づいて分類できます。

カテゴライザ モデルにお使いのデータやカテゴリを学習させることによって、お客様独自のカテゴライザを作成することができます。まず、トレーナーがデータを分析し、トレーニング プロセスで取得した情報を保存します。次にコンテンツを分析し、コンテンツが属するカテゴリを決定します。

テキスト分類機能は、統計的なテキスト分類プロセスを使用します。このプロセスでは、人間が作成したトレーニング ドキュメントに基づく自動分類ルールを学習するための、機械学習手法を適用します。

自由に選択した分類方法が適用できるため、最初にそのカテゴリを「学習」するようにモデルを「トレーニング」する必要があります。それを終えてから、モデルを Text Categorizer ステージで使用して、構造化されていないデータを分類することができます。

Spectrum™ Technology Platformでは、管理ユーティリティ コマンドを使用して、テキスト分類モデルを管理します。コマンドの説明については、管理ユーティリティ コマンドを参照してください。