データの準備

テキスト分類を使用するための最初のステップは、入力ファイルとテスト ファイルを準備することです。そのためには、両方のファイル内で、タブで区切られた値としてデータを構造化する必要があります。ファイルには、次の形式で詳細情報が記述されている必要があります。
  • UFT-8 エンコーディング
  • 2 行のタブ区切りデータ。1 行目にはカテゴリ名 ("Patient" や "Provider" など)、2 行目には各カテゴリのデータ (以下の例を参照してください) が含まれます。

データは次のようになります。

Patient     John Smith dob04181963 224 Main St. Atl GA 30311 
Provider    Mark Johnson M.D. NPI5489512047 412 Washington Atl GA 30301