sklearn.feature_extraction.text.CountVectorizerの中国語翻訳
Chinese Translation
`class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, stop_words=None, token_pattern=’(?u)ww+’, ngram_range=(1, 1), analyzer=’word’, max_df=1.0, min_df=1, max_features=None, vocabulary=None, binary=False, dtype=)`
-
関数の定義 1
一連のテキストファイルをラベル付きの数量のマトリックスに変換します。
その実装により、use
scipy.sparse.csr_matrix
カウントのスパース表現が生成されます。
インバースがアプリオリ辞書を提供せず、特徴選択関連のアナライザーを使用しない場合、特徴の数は、データを分析することによって確立された語彙と同じ数になります。詳細を見る テキスト特徴抽出 。
-
パラメータの説明
パラメータ データの種類 意義 入力 文字列{「ファイル名」、「ファイル」、「コンテンツ」} 保留中のオブジェクト エンコーディング 文字列、デフォルトでは「utf-8」。 エンコーディング decode_error {「厳密」、「無視」、「置換」} バイトファイルが処理され、ファイルに指定された encoding
デコードに失敗した文字が含まれている場合、プログラムの処理方法を示します。デフォルトはstrict
、1つを返しますUnicodeDecodeError
。strip_accents {「ascii」、「unicode」、なし} 前処理段階では、コーパスのアクセント記号が削除されます。
「ascii」:高速で、厳密に一致するASCIIのみ
「unicode」:やや遅く、すべての文字に一致
なし:デフォルトでは処理は行われません小文字 ブール値 マークを付ける前に、すべての文字を小文字に変換してください プリプロセッサ 呼び出し可能またはなし(デフォルト) 前処理段階をオーバーライドしますが、トークン化とn-gramの生成ステップ トークナイザー 呼び出し可能またはなし(デフォルト) トークン化をオーバーライドし、前処理とn-gram生成ステップを保持します。のみ analyzer == 'word'
使用stop_words string {‘english’}、list、またはNone(デフォルト) 「英語」:組み込みの英語のストップワードを使用する
リスト:カスタムストップワード
なし:ストップワードなしtoken_pattern ストリング トークンを構成する正規表現、in analyzer == 'word'
使用する場合、デフォルトのルールは2つ以上の文字または数字を選択し、句読点を無視し、句読点をトークン区切り文字として使用しますngram_range タプル(min_n、max_n) N-gramは、n個の値の上限と下限を抽出します。すべてのn個の値は範囲内にあります(min_n<= n <= max_n) will be used アナライザ 文字列、{‘word’、 ‘char’、 ‘char_wb’}または呼び出し可能 機能を単語または文字のnグラムで作成する必要があるかどうか。オプション「char_wb」は、単語境界内のテキストからのみ文字n-gramを作成します。単語の端にあるn-gramには、スペースが埋め込まれます。
呼び出し可能オブジェクトが渡されると、未処理の未処理の入力から一連の機能を抽出するために使用されます。max_df 範囲[0.0、1.0]またはint、デフォルト= 1.0のfloat 所定のしきい値を超えるアイテムは、語彙を作成するときに無視されます。
フロート:コーパスの総数に対する発生数の比率
Int:絶対数
語彙パラメーターが指定されている場合、このパラメーターは無視されますmin_df 明確な 上記と同じ、下限 max_features intまたはNone、default = None なしでない場合の語彙:このパラメーターを無視する
なし:コーパス全体が頻度別に配置され、max_features機能を使用します単語 マッピングまたは反復可能、オプション rパラメータが指定されていない場合:語彙は入力ドキュメントによって決定されます
マッピング:機能マトリックスでは、キーは用語であり、値はインディーンです。
反復可能:バイナリ boolean、False(Defalt) True:ゼロ以外のすべてのカウントが1に設定され、バイナリイベントの離散確率モデル dtype タイプ、オプション fit_transform()またはtransform()によって返される行列タイプ -
属性
パラメータ データの種類 意義 単語_ 辞書 用語の特徴インデックスへのマッピング。 stop_words_ セットする ストップワード -
方法
-
build_analyzer
(自己)
前処理とアノテーションの呼び出し可能オブジェクトを返します
-
build_preprocessor
(自己)注釈の前にテキストを前処理する関数を返します
-
build_tokenizer
(自己)文字列をトークンシーケンスに分割する関数を返します
-
decode
(自己、ドキュメント)入力をUnicode文字にデコードします。
ドキュメント、デコードが必要な文字列
-
fit
(self、raw_documents [、y])元のファイルからの辞書構造のすべてのトークンの用語集
-
fit_transform
(self、raw_documents [、y])辞書構造の語彙を学び、用語とドキュメントのマトリックスを返します。
変換後の適合と同等ですが、より効率的です
-
get_feature_names
(自己)機能証明書のメトリックから機能名にマップする配列
-
get_params
(自己[、深い])評価額のパラメータを取得する
-
get_stop_words
(自己)有効なストップワードのリストを作成または取得する
-
inverse_transform
(自己、X)Xにゼロ以外の単語が含まれるファイルを返します。( X_inv : 配列のリスト、len = n_samples )。
X:{配列、スパース行列}、形状= [n_samples、n_features]
-
set_params
(自己、**パラメータ)このエバリュエーターのパラメーターを設定します
-
transform
(自己、raw_documents)ファイルをドキュメント用語マトリックスに変換します。
トークンの数は、fitまたは特定のコンストラクターを介して適合された語彙を使用して、元のテキストファイルから抽出されます。
raw_documents : 反復可能 Str、Unicode、またはファイルオブジェクトは次のようになります。
バツ : スパース行列、[n_samples、n_features] 文書用語マトリックス。
-