ときどきの雑記帖 RE* (新南口)

杏村から

June 20, 2021

自転車乗り

数日前に某所で見かけた自転車乗り、スーツっぽい服装だったのだけどズボン(パンツ)の右のすそだけかなり上までまくり上げて乗っていた。

チェーンがむき出しになっているタイプの自転車だったので裾が邪魔になるんだろう(し、下手して巻き込んだら事故る) とは思うけど、そうまでして乗るのかという気も。

というか、裾を留めるクリップとかバンドとかあったよな? (昔使っていた)

collation order

前回のExcelのなぞに対する謎解きの解説 Not only is the Internet dead, it’s starting to smell really bad.:2021年06月19日分をいただく。

ありがとうございます。

いいわけ

一応言い訳も。

何かの規則or規格に従っているだろうことは推測していて、「カルチャー」とかlocaleとかその辺の設定によるものじゃなかろうかというところから

using System;

class CompareTest
{
    static void Main()
    {
       Console.WriteLine(string.Compare("第", "一"));
       Console.WriteLine(string.Compare("第", "二"));
       Console.WriteLine(string.Compare("第", "三"));
    }
}

↑から始めて調べようかというところでした(迂遠な話だ)。

Unicode

strcmp/strcoll (とそのワイド文字バージョン)の違いではわたしもgawk(のWindows port)でむかーし引っかかったことがありまして。詳細は覚えていないんですが正規表現の － (範囲指定のアレ)がらみだったような。

読みがな

読みがなについて漢字は複数あるのでJIS X 4061では「代表読み」で丸められるのだけど、Excelにふりがなデータ与えるとそっち優先してくれるみたいね。

Excel にはPHONETIC 関数 - Office サポートってのがあって、セルにIME経由で直接入力したときの変換前の文字列がこれで取れるらしいんですね (他にも与える手段があるかもしれない)。前の記事で「ふりがな」って書いたのはその種のデータのことで、今回最初に検索した範囲ではこれにしか言及してないものばかりでたとえば並べ替えデータの基本について｜Excel｜ヘルプの森などを見ても

日本語文字列で漢字の並べ替えはふりがな情報によって行われる
ふりがな情報が抜けているデータは並べ替えがうまくできない

という解説しかみつからなくて以下略。

そもそもMicrosoftのサイトにこの種の情報がーっ…と思ったけど、今回のこのような情報は英語圏の(日本語に固有の(であろう)条件に明るくない)開発者に書けというのは無理筋だから、 (勤務地はともかく)日本語ローカライズをわかっている開発者が書く必要があるけど(お察し)ということなんですかね。

検索しなおして見つかった Windowsでの日本語照合順序 Japanese_XJIS_100、Japanese_Bushu_Kakusu_100　の比較 (メモ) | OPCDiary で紹介されている「日本語照合順序 Japanese と Japanese_XJIS_100、Japanese_Bushu_Kakusu_100　の比較 – SQL Server 開発チームブログ – Site Home – MSDN Blogs.」が今回一番知りたかった情報だと思うのですが見事にリンク切れ。

名前にMSDN blogsとあるけど、そう言えば少し前になにやらあったなあ… これか。突然消滅したMicrosoft TechNet／MSDNブログ（日本語）の捜索：山市良のうぃんどうず日記（154） - ＠IT

問題の記事はWebArchiveにあったのでそのリンクを貼っておこう。日本語照合順序 Japanese と Japanese_XJIS_100、Japanese_Bushu_Kakusu_100　の比較 - SQL Server 開発チームブログ - Site Home - MSDN Blogs

google spreadsheet

もう一度やってみましたが

文字
一
三
二
第

という順序になりました (前回の「期待通り」というのもこれ)。なにか設定があるのかなあ。

追記

言語設定ぽい。こちらは表示言語Englishで使ってました(localeも)。

重箱の隅

SORT関数でデータを並べて取り出す | Excel関数 | できるネット

［基準］の列に入力されている値が文字列の場合、読み（ふりがな）の順ではなく、文字コード順に並べ替えられます。

え?

関係代名詞の二重限定

【再掲】関係代名詞の二重限定、訃報の伝え方（NASAの黒人女性数学者、キャサリン・ジョンソンさんの訃報） - Hoarding Examples (英語例文等集積所)

をを読んで思ったのだけど以前書いた

「（Juliaは）Pythonと細かいところでとてもよく似ているが、配列のすべての添字が1から始まり、範囲の終端が除外されずに内包される点に気付いた時にうわぁ！と感じるはずだ」（van Rossum氏）

“[Julia] has enough details that are very similar to Python that when you realize, oh, but all the indexing is one ranges are inclusive instead of exclusive, you think arrgggh!”

二番目のthatの先行詞がわからない(関係代名詞じゃない。ってことはないよねえ)。直前のPythonだとすると意味が取れない(気がする)。

これも関係代名詞の二重限定?

pLaTeX

pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary

Origin

正規表現とか文字列アルゴリズムとかで先頭や末尾を表したりする文字に ^ と $ が選ばれた理由とか発祥がどこかとかなにも知らない
— えびちゃん🍑🍝🦃 (@rsk0315_h4x) June 14, 2021

そういや自分も気にしたことがなかったな(笑)

「理由」はさておき、発祥というかその始まりは regular expression - When and why did ^ and $ take on their meanings of “beginning of line” and “end of line?” - Unix & Linux Stack Exchange あたりの情報のままなんだろうけど。

It is not clear where the choice of these particular symbols came from, but $ already had the meaning “last” from the way it was used to address the last line.

あとはまあ ASCII - Wikipedia 見てもどんだけ記号の類があるのかって話で。

≪ prev 𝄇

next ≫ Song of Earth