概要
pixivでは主にタグに関して、同じ意味・内容・機能の言葉(タグ)であるにもかかわらず、同義語や、ひらがな・カタカナの混在や取り違えなどで表記が割れている状態。表記ゆれ、または表記ぶれともいう。
読みは同じでも、漢字や綴りの違いで意味そのものが異なる言葉同士(たとえば「燃え/萌え、道着/胴着」など)は「同音異義語」にあたるため、厳密には表記揺れに含まれないものとする。
表記揺れとして、「漫画」「まんが」「マンガ」を例にすれば、いずれも日本人(または日本語のわかる人間)から見れば「同じ意味の言葉」と受け取れるが、コンピュータはこれらを「全く別の言葉」と解釈するため、検索に不便になる(ひらがな・カタカナ・漢字・アルファベット・記号の文字コードが全く異なるため)。
統一のメリットとデメリット
できれば一つの言葉に統一した方が便利であるが、pixivの肥大化に伴い、すでに手遅れのものも多い。日本語には公的な正書法が存在しないこともあり、用語の統一は非常に困難。統一しようにも「どれにするか」についても意見が割れることもあるし、一見表記揺れでも実は使い分けられていることもあるので注意。
また、完全にまとめてしまった場合、それが検索者が思い浮かんだ言葉と違っていたら検索結果には何も表示されない。その場合も何らかの形で主流のタグが判り、そこに辿り着けることが望ましい。表記揺れタグを全部付けた誘導イラストを用意する手もある。
タグでの望ましい表記
タグの役割を考えると、一番多く使われていて、他の意味での使用がない表記が望ましい。
一般的な言葉においては、「正式な表記」が存在せず、どのような表記が多く使われるかは不定。
特にひらがな・カタカナ・漢字表記タグが混在する場合が多くみられる。
基本的に、作品名では正式名称、人物名ではフルネームが推奨される。
特に人名の場合、「姓だけ」または「名だけ」のタグは他の人物と混用される危険が増すため、推奨されない。
ただし、フルネームが判明していない場合や、略称・通称の方が通じやすく多く使われる場合もある。
例外として、アキュートがある。こちらに関しては、アキュートありとアキュートなしが明確にイラストのタグとしては別扱いとなるが、大百科ではアキュートありでもなしでも同一の物と判定される例外がある。
対策等
検索・閲覧
ピクシブ百科事典の記事に表記揺れがまとめてある場合はそれを参考にできる。
それがない場合、思い浮かんだ表記での検索を試し、適切な表記を見つけるのが望ましい。
1つの表記が圧倒的に多く使われている場合であれば、それだけを使っても問題は小さい。
表記揺れをまとめて検索したい場合は、OR検索(部分一致検索)が効果的。
表記揺れ間で部分一致が大きければ、部分一致検索の使用で事足りる場合がある。
タグ編集
数が1桁かそれに近いならなら記事を書かずにタグを全部付け替えたほうがいいかもしれないが、「実は使い分けられている」ケースには注意。
pixivのタグの編集制限は厳しいが、制限が解除されるまで他の記事でも書いていよう。もしくはタグを消す人+付ける人の2人で組めば相当早い。
ロックされている場合は新しく付けるだけにするか、作者にメッセージなどで知らせた方がよい。
また、「見た目は同じでも入力した機種によって異なる記号になってしまうタグ」にも要注意。例えばMacで入力すると普通に出る「〜(波線)」だが、Windowsで入力しようとすると「~(チルダ)」が出てしまう(この実装は本来誤り)。こうしたタグを付け替えてしまうと、特定の機種で検索できなくなってしまうおそれがある。
記事編集
表記揺れタグのピクシブ百科事典で誘導記事を作製する方法がある。
多く使われている表記揺れではこれが適切と思われる。
また、誘導先の記事で表記揺れの一覧をまとめておけば、閲覧・検索の手助けができ、他者の編集により自分だけでは知り得なかった表記が見つかる可能性もある。
ピクシブ百科事典では特定の表記にのみ記事作製されている場合がある。
他表記で記事が作成されているのに気づかずに同じ意味の記事を作成してしまう無駄を避けるために、記事を作成する際は、他表記の記事の有無を確認した方がいい。
最近ではタグとして用いられたことのない単語なのに、その単語を表記揺れとして記事を作っている者もいるが、用いられていない以上、誘導する必要もないので全くの無駄といえる。
このような記事はただ容量を食うだけな上、増えていくと検索の邪魔にしかならない。
なので、その表記がタグとして用いられているかをちゃんと確認してから作成するようにした方がよい。
表記ゆれの原因と例
全角・半角文字(記号・英数字など)の違い
漢字・ひらがな・カタカナ・アルファベットの違い
同名キャラクターが多い動植物や色名は、一般側がキャラクターの少ないタグを選ぶことで、一般寄りと固有寄りに自然と分かれる場合もある。しかし新たな人気作の出現によって一気に割合が変わることもあるので不安定。絞り込み検索の他タグをつけておくほうが堅実。
なお、「犬 イヌ いぬ」のように表記揺れのタグを併記する方法は、意外と絞り込み検索に強い。
異体字・仮名使いの違いなど
ピクシブ百科事典では漢字1文字のほうが親記事にしやすく、羽根は羽への誘導記事扱いだが、タグとしては逆に、文字数の多い羽根のほうが絞り込み検索で使いやすい。
娘(この場合「むすめ」ではなく「こ」と読む。「あの娘」「眼鏡っ娘」など、若い女性を表す際の語として使われることが多い)/子
送り仮名の有無
長音符(ー)の有無
文字と絵文字や記号
ハートの「❤」など機種依存文字の記号も多い。
接辞や強調の有無
「○○絵」「○○画」系のタグは絞り込み検索に強い。例えば「自然」と「自然画」は同じようなタグだが、「自然」の部分一致検索では「混ぜるな自然」なども混ざる。
黒髪/黒髪ロング(「黒髪」に髪型名を組み合わせたタグは複数存在)
同一概念や類義語
女子高生/JK/女子校生(女子中学生の意味も含まれるので使用注意)
外来語と国語・訳語の違い
作品名や人名などの固有名詞の表記揺れ
作品名や人名に誤記がある場合
⇒誤記一覧
記号の有無・表記の取り違え
けいおん(略称)/けいおん!(原作・アニメ1期)/けいおん!!(アニメ2期)
君の名は(ドラマ作品。後者作品とは無関係)/君の名は。(新海誠原作の映画作品。前者作品とは無関係)
また、中黒(・)の有無については特に多く、正式表記は「・」入りだが一般的に使われるタグでは省かれるという事例がかなり見られる。
アラビア数字・ローマ数字・漢数字の違い(誤記)
漫画・アニメなどの作品名に「数字」が含まれている場合、「アラビア数字」「ローマ数字」「漢数字」を取り違えることもある。
機種依存文字を気にしてローマ数字をアラビア数字に置き換えることも。
3月のライオン/三月のライオン(数字の違いで作品そのものが違ってしまう一例)
山田くんと7人の魔女/山田くんと七人の魔女(逆にアラビア数字が正題)
正式名称(フルネーム)・略称・別称の違い
中には、原作者が決めた「公式の略称」も存在する。
通称と本名が異なるキャラクター・下の名前で表記されることが多いキャラクター
シャア・アズナブル/クワトロ・バジーナ/キャスバル・レム・ダイクン
他の用途と重なる場合・合成タグと元の名詞
孫悟空/孫悟空(ドラゴンボール)/孫悟空(最遊記)/孫悟空(無双)
アキュートの有無
etc…
一般/汎用タグ
2番目が10000件以上
2番目が5000件以上
2番目が1000件以上
(比率差大)
2番目が500件以上
2番目が100件以上
作品名等のタグ
2番目が10000件以上
(比率差大)
2番目が5000件以上
(比率差大)
2番目が1000件以上
ドラクエ3/DQ3/ドラゴンクエスト3/ドラクエIII/ドラゴンクエストIII/ドラクエⅢ/ドラゴンクエストⅢ
2番目が500件以上
DQ2/ドラクエ2/ドラゴンクエスト2/ドラクエII/ドラゴンクエストII/ドラクエⅡ/ドラゴンクエストⅡ