トップページ | Python 標準ドキュメント | 事例集 | アーティクル | リンク集 | ダウンロード | サイトマップ 
468x60サイズバナー・シリーズC Simple Fun and Indented
  過去のニュース
  • Python 2.7 ドキュメント翻訳完了 
  •  
      (旧バージョン)

    2002年3月以前のNews

     

     Python News [トップ] |  [投稿] |  [検索] |  [RSS]  | [親発言]

      オンライン・ドキュメント Python本 Python Module 日本Pythonユーザ会 Pythonのうわさ  
      文字コード判定ライブラリ Universal Encoding Detector
       2006年03月30日(Thu) 12:18AMに yimado さんが投稿 
    Python Module

    Universal Encoding DetectorMozillaのコードが移植された、文字コードを判定するライブラリです。


    とりあえずの使い方はとっても簡単で文字(列)をdetect()するだけで、推定されたエンコーディングと信頼度が返ってきます。

    サポートされている文字コードも文句ありません。

    「あ」1文字のように入力文字列が短すぎる場合の判定は常に信頼度0.505と出てましたがエンコーディングは合っていました。実用では1文字から推定するなんて皆無なので何も心配することはないでしょう。

    <  |  >

      関連リンク
  • Python Moduleのほかの記事
  • yimadoのほかの記事
  • yimado
  •  
    [ これに対して返事を書く ]

      Re: 文字コード判定ライブラリ Universal Encoding Detector
       2006年07月21日(Fri) 09:48PMに ふかまち さんが投稿 
    SJIS の環境でちょっと意地悪してみましょう。

    import chardet
    chardet.detect("これはなに")
    chardet.detect("蛇のとぐろを見る")
    chardet.detect("東京のこれは何")
    chardet.detect("文字列の判定をするのだ")

    句読点が含まれない短い文字列を判定させると、こける可能性があります。句読点を含む文字列なら大丈夫だと思いますが。

    chardet.detect("。") 
    chardet.detect("、")

    import pykf
    pykf.guess("これはなに")
    だとこけないので、短い文字列で日本語の文字列と分かっているなら pykf 等使った方が安全かもしれません。

    [ これに対して返事を書く ]

     
    "へいかのじょ、オラとオブジェクトをついきゅうしない?" -- しんのすけ

    印刷用ページ
    Copyright © 2001-2012 Python Japan User's Group.

    警告当サイトの文書・画像等のコンテンツの著作権は、各コンテンツの作成者、もしくは日本Pythonユーザ会に帰属します。
     また、日本Pythonユーザ会はサイト内のコンテンツに他のプログラミング言語からの乗り換えを誘発する恐れのある表現が多々あることを認め、予めお詫び申し上げます。